With its rapid popularization, the Microblog has become an important channel of public opinion and is increasingly affecting real life. Around the Internet public opinion analysis, the project research the Microblog's feature representation,session sequence identification, topic detection and diffusion analysis, focusing on vast amounts of real-time, debris, socialized the Microblog's information,which is based on the latest research achievements of natural language processing, data mining, artificial intelligence and Web search, combined with the theories and methods of Sociology and Communication. We intend to resolve the problem of the massive Web short text analysis and the integration of text content analysis with social relations analysis, strive to achieve a breakthrough in a mass social short text analysis theory, form a set of effective methods for social short text analysis for Ineternet public opinion analysis, design and develop a prototype system of topic analysis for Microblog public opinion, which support for a new generation of Internet public opinion analysis system as theories and key technologies. In the research process, we will actively participate in the Microblog track evaluation of the TREC, in order to objectively evaluate the achievement of this project, and strengthen communication and cooperation with international peers to promote the research of this project.
微博作为快速发展的新兴网络应用,已成为网络舆论传播的主要渠道,对社会生活产生着越来越重要的影响。本项目围绕微博网络舆情分析问题,以自然语言处理、数据挖掘、人工智能和互联网搜索等领域的最新研究成果为基础,结合社会学与传播学的理论方法,重点针对海量的即时性、碎片化、社会化的微博信息,研究微博的特征表示、会话序列识别、舆情话题检测和话题传播分析等理论方法,拟重点解决海量网络短文本流分析问题和文本内容分析与社会关系分析相融合的问题,力求在海量社会化短文本分析的理论方法上有所突破,形成一套有效的面向网络舆情分析的社会化短文本分析方法,设计开发一套微博舆情话题分析原型系统,为新一代网络舆情分析系统提供理论与关键技术支撑。在研究过程中,积极参加TREC微博评测,以便客观地评价本项目的研究成果,并在评测过程中与国际同行交流学习促进本项目研究工作的开展。
微博已成为人们了解时事新闻和传播舆论的重要渠道。与传统新闻媒体相比,微博具有文本短、传播快、用户多、互动强等特点。本项目围绕微博网络舆情分析问题,以自然语言处理、数据挖掘、人工智能和互联网搜索等领域的最新研究成果为基础,结合社会学与传播学的理论方法,针对海量的即时性、碎片化、社会化的微博信息,重点研究了微博特征表示、微博话题检测追踪、微博时间线生成和微博实时过滤等技术。在文本简短、语言不规范、噪音较多的微博环境中如何对微博有效地进行特征表示是一件非常有挑战的事情,本项目中提出了基于知识的扩展模型和基于实体反馈的语言模型来解决此问题,并构建了多源实体驱动的探索式搜索引擎原型系统(EEST)以便进行研究实验和成果展示。微博传播中话题快速漂移的现象导致微博话题难以检测和持续追踪,本项目中提出了基于子话题聚类的微博话题追踪模型,提高了话题持续跟踪的准确性。而微博时间线生成技术则是从围绕同一话题的一系列的博文中自动抽取代表性的博文,并按时间顺序形成针对该事件的梗概,从而过滤掉大量噪音、冗余的微博,提高用户获取信息的效率,本项目中提出基于图的动态贪心聚类算法,对微博时间线的相关性、新颖性以及覆盖度进行建模。为进一步提高用户获取信息的及时性,本项目中还探索了微博实时过滤技术,提出一种适应性过滤框架,从实时的微博数据流中,自动监测并过滤抽取用户感兴趣的信息,并利用固定时间窗口的最大边缘相关性模型对潜在的微博进行相关性、多样性的建模。通过本项目研究,解决了微博内容碎片化、语言不规范、话题演化快等问题,形成了一套有效的面向网络舆情分析的社会化短文本分析方法,为新一代网络舆情分析系统提供理论与关键技术支撑。..基于以上研究成果,本项目发表国际会议论文12篇,申请发明专利6项。2014年—2017年连续参加该领域的国际权威评测TREC,每次均取得好的成绩,更有4项获得第1名。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
面向网络短文本舆情分析的层次化表达与计算机制研究
面向微博平台的短文本话题检测与跟踪研究
基于语义理解的面向特定主题的微博舆情监控技术研究
基于社会化短文本主题模型的社会网络用户心理健康分析