Microblog has become a popular platform for information exchange, which has much more real-time information than the traditional platforms. It will help people to grasp the important information that carrying out the TDT work on the microblog platform. However, its short message text attributes as well as the small sample properties of the platform in topic-related information, making more difficult to carry out TDT work. Current research in TDT is mostly limited to long text, less involved short text environment.This project focuses on the vast amounts of information on this emerging and rapid development of the social networking platform. Proposing a new text integration technology framework which is a combination of short text analysis and user characteristics. Text similarity computation, the LDA topic mining and fitting sentence sorting technology has been used to track and analysis the topic of microblog dynamically. The topic of critical information has been returned by icons and lists which can be understood easily. Such framework can help users to grasp the background of the global event, and put forward the trend predictions for policy-makers to provide high-quality decision support.
微博(Microblog)已成为信息发布、交流的热门平台,其信息的实时性与内容的丰富性均是传统平台所不具备的。基于微博这样一个汇集海量信息的平台开展话题检测与跟踪(Topic Detection and Tracking,TDT)工作,将会帮助人们及时掌握重要信息。然而其消息的短文本属性以及平台中话题相关信息的小样本特性,使得在其中开展TDT 工作较为困难。目前国内外在TDT 方面的研究大都限于长文本范围,较少涉及短文本环境。本课题针对微博这种新兴并飞速发展的社交网络平台上的海量信息,提出一种新的结合了短文本分析和用户特征分析的文本融合技术框架,采用文本相似度计算、LDA 话题挖掘和基于拟合的句子排序等具体技术,对微博话题进行动态的检测、跟踪和分析,并以图示和列表等用户易于理解的方式,返回话题关键信息。帮助用户把握全局性的事件背景,并提出趋势发展的预测结果,为决策者提供高质量的决策支持。
微博平台已发展成为网民讨论社会热点事件和分享日常生活的重要社交平台之一。这些用户产生的内容(user generated contents,UGCs)在微博平台上以数据流的形式实时产生和动态更新。快速变化的微博流使得我们迫切需要开发一个有效的监测工具来实时分析微博中产生的话题及其演化趋势,这对突发事件预警、舆情疏导、产品营销、信息推荐等意义重大。.面向微博文本流的主题探测与追踪是监测微博流的有效方法之一,它可实时探测网络上的热点动态,进而可以辅助监测人员及时作出应对措施。然而,微博文本的简短性、高噪声、低质量、快速变化、规模庞大等特点使得现有的主题探测与追踪方法面临四个主要挑战:(1) 海量低质的微博文本使得主题挖掘的时空开销较大,难以满足实时性要求;(2) 微博文本在向量空间中的高维稀疏使得现有聚类方法难以获得有价值主题信息;(3) 面向微博文本流的新兴主题探测的及时性与准确率矛盾难以调和;(4) 难以准确追踪和刻画微博流中的新兴主题在时间序列上的演化状态。本课题针对上述挑战,构建一个面向微博文本流的主题探测与追踪的统一框架,该框架试图分别从微博采样、主题抽取、新兴主题探测与主题追踪等方面提出相应解决方案。本课题的完成的研究内容可概括如下:.(1)针对微博文本海量低质的问题,本课题提出一个基于时间-频率变换的高质量微博抽取方法,来从大规模微博文本中抽取出部分有代表性的高质量微博。.(2)针对现有基于向量空间模型的文本聚类技术对微博文本进行聚类时面临维度高、特征稀疏和噪声干扰等问题,本课题提出基于频繁项集的短文本聚类与主题抽取方法。基于100万条新浪微博文本的实验结果表明,该方法能够全面准确地抽取主题信息,并快速有效地实现海量短文本聚类。.(3)针对面向微博文本流的主题探测面临的微博文本相似度难以准确度量、新兴主题词汇难以有效发现等问题,本课题提出一个基于高效用模式聚类的主题探测方法。该方法可同时探测到新兴主题和背景主题。在大规模Twitter和新浪微博上的实验结果表明该方法比基线方法能更好的探测到两类主题。.(4)针对面向微博文本流的主题探测与追踪的及时性和准确性需求,本课题提出一个基于新颖性概率与衰退性概率的主题探测与追踪方法。在100万条新浪微博上的实验结果表明,该方法不仅在新兴主题探测方面比基线对比方法取得更高的准确率、主题一致性和新鲜度,且在主题追踪方面表
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
基于全模式全聚焦方法的裂纹超声成像定量检测
基于图卷积网络的归纳式微博谣言检测新方法
人工智能技术在矿工不安全行为识别中的融合应用
面向工件表面缺陷的无监督域适应方法
微博中定向话题发现与追踪
微博炒作话题识别与传播人群分析
微博突发话题发现与形成演化机理研究
微博热点话题传播模型与可视化研究