Web 2.0的快速增长,用户不仅能被动地获取信息,还能够通过在线社区积极参与和表达自己的观点和意见。特别是博客和微博客网站(例如 Twitter,内容短小,可通过电脑、手机、PDA等发布)为网民提供了一种简单快捷的平台,便于交流信息、开展辩论,并形成社交团体和网络社区。社交文本流汇集民众当前观点和意见的即时信息,对于商家、情报分析员和政府是很有价值的。本项目的目的是研究针对社交文本流的通用事件监测模型和事件摘要算法,实现快速有效地发现并摘要事件。更具体地说,我们的研究目标是:1) 事件监测模型:设计一个针对社交文本流的通用事件监测模型2) 事件摘要框架:提出一套新的从社交文本流中摘要事件的框架。概括事件不仅包括事实,而且有事件的社会影响 。3) 实时处理:开发智能搜集系统,以及将事件监测和摘要算法分布并行化,达到面对海量社交文本流能够有实时事件发现和摘要的能力。
Web 2.0的快速增长,用户不仅能被动地获取信息,还能够通过在线社区积极参与和表达自己的观点和意见。特别是博客和微博客网站(例如 Twitter,内容短小,可通过电脑、手机、PDA等发布)为网民提供了一种简单快捷的平台,便于交流信息、开展辩论,并形成社交团体和网络社区。社交文本流汇集民众当前观点和意见的即时信息,对于商家、情报分析员和政府是很有价值的。本项目的目的是研究针对社交文本流的通用事件监测模型和事件摘要算法,实现快速有效地发现并摘要事件。.本项目的主要成果有以下几点:.(1).我们实现了中国事件检索与发现系统EventSearch。该系统的数据来自四种数据源,包括网页新闻,人民日报,中央电视台新闻联播,微博。其中网页新闻提取自 “中国互联网信息博物馆InfoMall”,包含有从2001年到2011年的1千1百万个网页。报纸和电视新闻视频也跨越2001至2011年。对于一个查询,系统会返回一个事件的摘要列表和与查询相关的事件分布情况(时间与地点),可以按照规模、时新性和相关性排序来展示。在事件的检测中,我们使用了一种新的基于burst词检测的方法。同时,我们还实现了一种在线的事件检测方法来提升系统的效果。.(2).提取Twitter中的主题关键字。对Twitter的内容进行摘要和分析是一个重要和具有挑战性的的任务。我们提出利用主题关键词提取方法来对Twitter进行摘要。我们提出一个用于关键字排序的上下文敏感的主题PageRank模型(context-sensitive topical PageRank ,简记为cTPR)和一个用于关键短语排序的概率打分函数,该打分函数同时考虑了相关性和兴趣度。我们在一个大的Twitter数据集进行了实验, 选择了10个主题,涵盖了Twitter上的内容,对提取主题关键短语进行评价。这些主题如下表所示。实验结果表明,我们提出的方法是非常有效的。.(3).提出一个优化的交互式个性化摘要。大多数传统的摘要方法输出是静态的和纯文本的,未能捕捉到用户的兴趣,因此通用的摘要算法为不同的用户生成的摘要是相同的。而且,同一个用户对于不同数据源的文档集合也有不同的摘要需求。因此,我们调查在摘要产生中的重要和具有挑战性的问题,即交互式个性化综述(IPS),以互动和个性化的方式产生摘要。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
基于多色集合理论的医院异常工作流处理建模
二维FM系统的同时故障检测与控制
扶贫资源输入对贫困地区分配公平的影响
LTNE条件下界面对流传热系数对部分填充多孔介质通道传热特性的影响
社交网络中基于短文本的事件检测与分析理论及关键技术研究
面向查询的社会化短文本自动摘要研究
社交媒体中文本情感语义计算理论和方法
新闻与社交媒体协同的主题演化摘要研究