面向微博数据流的事件主线挖掘技术研究

基本信息
批准号:61303156
项目类别:青年科学基金项目
资助金额:26.00
负责人:杜攀
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:丁国栋,白露,晏小辉,陈强,南军啸,黄康平,朱俊杰,魏明川
关键词:
多目标排序测度学习事件主线挖掘微博流数据增量式排序
结项摘要

Information on the microblog is usually short, fragmentary, abundant, noisy, and heavily repeated, which causes three serious problems: 1) information overload, 2) information fragmentation, and 3)information redundant. Event Storyline selects several microblog posts out to represent all the episodes during the event development, hence is a great way to solve the problems above. There are mainly three challenges for mining event storyline on microblogging stream: 1) The data sparsity and high dimensionality causes poor performance on similarity measurement, 3) The balance of relevance, prestige and diversity in episode mining is non-trival, 3) The constantly updated microblog data requirs a more efficient mining algorithm to update the storyline correspondingly. Focusing on the chanllenges described above, we propose to make full use of the rich relationships among microblog posts to learn a similarity metric, then adopt an incremental multi-objective ranking algorithm to identify the posts which can represent the important episodes during event development. Our study focuses on mining event storylines on microblogging streams. It gives support to many important applications such as online public opinion analysis, automatic summarization, industry survey and so on.

微博信息具有更新快、长度短、碎片化、多而杂和大量冗余的特点,这些特点带来了三个问题:(1)信息过载(2)信息碎片(3)信息冗余。事件主线(Storyline)使用有限的几条微博就能够描述新闻事件发展的所有关键片段(Episode),是解决上述问题的有效途径。面向微博数据流的事件主线挖掘技术,主要面临如下几个挑战:(1)高维稀疏的微博数据带来的相似关系计算问题(2)事件关键片段的事件相关性目标、内容重要性目标、信息差异性目标的优化平衡。(3)海量微博流式更新对主线识别算法性能的挑战。针对上述挑战,本课题从分析利用微博数据丰富的关联关系入手,将事件主线识别问题归结为基于关系流形的多目标排序问题,并研究应对微博数据流式更新的增量式多目标排序算法。本课题的研究立足于面向微博数据流的事件主线挖掘,既有重要的研究价值,又有广阔的应用前景,将为网络舆情分析、自动文摘、产业调研等应用提供关键技术支持。

项目摘要

微博信息更新快、长度短、碎片化、多而杂且大量冗余的特点带来了信息过载、碎片化、冗余性的问题。事件主线将众多繁杂的微博按照事件及其发展过程关键片段的形式串联成线,从而便于迅速获取事件全貌,提高微博的利用效率等。本文利用有意义串及其集合来表示事件话题,使得话题的语义表达更加充分和清晰,从而更加容易度量微博段文本之间的语义关系,同时利用微博的社交网络属性,利用微博在网络上的好友转发关系来扩充转发内容和内容话题,从而实现内容和结构的融合来表达微博关系,在此基础上进行的事件发现,并对事件集合进行基于子话题发现的关键片段抽取,进一步对关键片段赋予语义标签使其便于理解。最后,利用基于RNN的时间序列预测方法,预测新消息到来后,事件成为热点的可能性,从而决定是否以及如何对事件主线进行更新。在新浪微博和Twitter试验数据上验证了方法的有效性。所述方法在爆发性事件发现及跟踪系统中得到了初步应用,对于信息检索、自动文摘、自动文献调研、舆情监测、智能个人助理等应用都具有实际应用价值和研究价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

针灸治疗胃食管反流病的研究进展

针灸治疗胃食管反流病的研究进展

DOI:
发表时间:2022
3

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018

杜攀的其他基金

相似国自然基金

1

面向微博的实时事件深度挖掘研究

批准号:61472335
批准年份:2014
负责人:林琛
学科分类:F0607
资助金额:80.00
项目类别:面上项目
2

面向微博数据的位置相关事件检测和时空异常聚类模式挖掘研究

批准号:41471327
批准年份:2014
负责人:万幼
学科分类:D0114
资助金额:64.00
项目类别:面上项目
3

面向事件时间感知的微博检索研究

批准号:61572494
批准年份:2015
负责人:王斌
学科分类:F0211
资助金额:64.00
项目类别:面上项目
4

面向入侵检测的数据流挖掘研究

批准号:60873196
批准年份:2008
负责人:王勇
学科分类:F0206
资助金额:35.00
项目类别:面上项目