The big data on online social networks such as Microblog and Instant Messaging has features including multi-source, diversity, short fragment, high speed data generating, temporal and spatial relative, etc., which are significantly different from the features of traditional Web data. Thus, current topic discovery and evolution analysis methods encountered great challenge. Based on mining the data on social network applications, topic discovery and evolution analysis is to detect and track the implicit topic, and analyze the temporal and spatial evolution of topics. Study on topic discovery and evolution analysis has major reference value for social research, information analysis, public opinion analysis and network marketing. This project focuses on the intelligibility, precision, efficiency and evolution problems of topic discovery and evolution analysis on social networks, and studies the theorems, methods and techniques via topic model, topic discovery and topic evolution analysis. Firstly, we design a dynamical grain topic model to match users’ intents; based on the model, towards the diversity and multi-source data stream, we use pruning and parallel methods to implement accurate and real-time topic detection and tracing; after that, we study the evolution mechanism via the relationship among topics and the temporal and spatial changing, and then propose several key techniques; finally, we also implement an online social network topic discovery and evolution analysis proto system to test and verify our results.
以微博、即时聊天等为代表的在线社交网络大数据,具有多源性、多样性、文本碎片化、高速产生、时空相关性大等特点,与传统Web数据存在显著差异,给话题发现与演化分析带来了巨大挑战。社交网络的话题发现与演化分析指通过挖掘在线社交网络应用中的数据内容,提取发现隐含着的话题及话题的时空变化规律的过程,其研究对人类社会研究、情报分析、舆情分析、网络营销等方面有巨大参考价值。本项目围绕在线社交网络数据特点带来的可理解性、准确性、时效性和演化性问题,从话题模型、话题发现、话题演化分析三个层面研究相关理论、方法和关键技术。首先,设计一种粒度动态可调的话题模型,以更好地匹配用户意图;在此基础上,面向碎片化、多源头信息流,采用高效剪枝和并行化实现准确的实时话题发现与跟踪技术;然后,从话题相互关联性和话题时空演变性两个角度分别研究演化机理,提出相关关键技术;最后,构建实现一个在线社交网络话题发现与演化分析原型系统。
近年来,在线社交网站、微博、博客、论坛、维基等社交网络应用的出现和迅猛发展,使得人类使用互联网的方式产生了深刻变革——由简单信息搜索和网页浏览转向网上社会关系的构建与维护、基于社会关系的信息创造、交流和共享。在线社交网络的话题发现及演化分析,旨在提取发现隐含的话题及话题的变化规律。.在线社交网络具有用户众多、信息实时、瞬间互动、传播迅速等特点,传统面向长文本的话题发现与演化分析技术,应用在社交网络数据上时面临诸多挑战:1)信息多源、形式多样性带来的可理解性问题;2)数据内容简短、噪音大及非内容性特征多带来的准确性问题;3)海量、快速产生的信息产生带来的计算时效性问题;4)话题内涵随时空演变和漂移带来的演化性问题。.针对上述挑战,本项目围绕在线社交网络数据特点带来的可理解性、准确性、时效性和演化性问题,从话题模型、话题发现、话题演化分析三个层面研究在线社交网络话题分析的理论、方法和关键技术,探索话题形成和演化的机理,在动态粒度话题模型、实时话题发现技术、话题多维关联分析、话题时空演化分析与预测等方面取得突破性进展,推进话题发现与演化分析理论与技术在社交网络分析中的应用。.本项目的研究取得了基于用户意图的动态话题模型、单遍扫描的实时热点话题检测算法、细粒度话题演化与关联关系分析模型、基于行为的话题转发预测方法,以及支撑稀疏特征计算的特征表示和相似度计算方法等一系列理论成果,初步形成了多通道、碎片化网络文本数据的话题分析理论体系。在此基础上,突破了包括水军检测等在内的一系列应用技术,实现了原型系统并在用户单位进行探索性应用。.相关成果的大规模实验数据集上验证了有效性。其中,社交网络用户意图的挖掘,比传统基于LDA的方法提升了20%。快速热点话题检测方法无需事先分词,准确率达89%,时空开销仅为基准算法的2%。话题流行度预测方面,比传统方法提升了将近10%。.项目的主要科学意义包括:1)创新性地将用户意图与话题发现进行结合,解决了话题粒度标准难以确定的问题;2)突破了实时流数据的热点话题发现计算速度问题,采用单遍扫描方法和自适应重构索引来控制性价比;3)大幅提升了传统爆发式话题检测结果的可读性;探索了Dropout机制和基于深度学习的文本相似度计算方法,并结合用户信息进行流行度与转发行为预测,有效提升了预测的准确率。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
社交网络用户行为分析及话题演化趋势预测方法研究
在线网络社区话题内容与社区结构协同演化机理与验证方法研究
基于主题关注模型的在线社交网络社区发现与信息传播机理研究
微博突发话题发现与形成演化机理研究