基于网络异构文本数据融合的热点话题发现及其内容摘要研究

基本信息
批准号:61273278
项目类别:面上项目
资助金额:80.00
负责人:李素建
学科分类:
依托单位:北京大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:曾立英,何正焱,黄小江,王宇昕,王彦润,宋涛,王荀,曹自强
关键词:
自动摘要多维度标注热点话题异构文本数据数据融合
结项摘要

It is fundamental and practical to detect and summarize hot topics. However, the state-of-the-art researches always take hot topic detection and automatic summarization as two independent tasks, both of which make little improvement on proposing new methodology in recent years and are mainly relying on a single type of corpus. Thus, we propose to fuse the hetero-structural text streams from news websites, Wikimedia and microblog platforms, and simultaneously merge the tasks of hot topic detection and automatic summarization. This proposal will include the following three aspects: (1) To research on hetero-structural text data fusion based on multi-dimension labeling and indexing. Some dimensions such as time, discourse, content and user will be designed for the text labeling, and the feature integration theory of attention will be introduced to guide the data fusion. (2) To research on the topic detection and tracking based on the fused data. We will investigate and research how to represent and analyze one topic according to the multi-dimension labeling results. Then the hotness degree of one topic needs to be measured with the consideration of both public concern and media concern. Furthermore, the related documents which describe the hot topics are collected using the corresponding topic structure. (3) To research on automatic summarization techniques which summarize the hot topics based on the Wikipedia data. Since Wikipedia can provide the documents which sum up the past hot topics, it is a good source to extract the topic templates for some specific topic. With the appropriate topic templates, we can research the novel summarization methodologies which are not limited to the extraction based techniques.

热点话题发现及内容摘要是具有实际应用价值的研究课题。但热点话题发现、话题内容摘要往往作为两项独立的研究,通常采用单一类型语料,且算法难以有新突破。由此本申请提出融合新闻网站、维基、微博等异构网络数据,将热点话题发现和话题内容摘要两项任务结合起来。研究内容包括:(1)基于多维度标注的异构文本数据融合。研究如何从时间、篇章、内容、用户等维度对文本进行标注,在注意的特征整合理论指导下对数据进行融合;(2)基于融合数据的热点话题发现和追踪。研究利用融合数据在各个维度的特征进行话题分析和结构表示,结合用户和媒体的关注度计算话题的热点度,并研究如何利用话题结构收集热点话题相关的描述文档;(3)基于维基数据的热点话题内容摘要。鉴于维基平台具有领域全面性、对已发生的热点话题给出综述的特点,研究如何利用同类话题的维基文档集合挖掘话题内容表达的共性,获取话题模板以改善摘要性能,从而突破基于句子抽取的摘要方法。

项目摘要

本课题围绕新闻、微博、维基等社会媒体数据对热点话题发现和摘要的相关工作展开了研究,四年来的主要研究内容归纳为如下三方面:(1) 对社会媒体数据进行收集和整理,并基于社会媒体数据对话题发现、自动摘要、用户关系推荐和用户信息识别等任务展开了深入研究;(2)在社会媒体数据上进行分词、关键词识别、术语提取、实体关系判别等基础工作的研究;(3)为了提高内容摘要的性能,加强文本篇章分析的研究,并对自动篇章分析及其在问答系统中的应用进行了探索研究。.课题基本按项目预定的计划进行,达到了项目预期的目标,并完成了项目预期的研究成果。基于以上研究内容,形成了理论结合实践、规范和资源共建、技术实用化的一整套比较系统的研究成果。(1)理论成果:相关研究成果整理论文30篇发表在国内外会议和期刊上。其中,SCI索引论文2篇,EI索引论文24篇,在国际高水平会议ACL,AAAI,CIKM,EMNLP, COLONG上共发表论文16篇。(2)规范和资源建设:在新浪微博上收集和整理了8千多个用户的信息及文本;构建和完善了一套篇章标注规范,并在此规范下收集和标注了新闻篇章语料库和科技论文摘要语料库。(3)系统实践:基于深度学习算法,开发了自动关键词提取、摘要和文档切分系统的demo,并和百度公司合作改进网络新闻的自动摘要技术,相关技术已产品化。(4)学术交流:与伦斯勒理工大学、香港理工大学、中央民族大学、哈尔滨工业大学、微软研究院、Baidu公司、IBM公司等进行学术交流、资源转让与技术合作等。(5)人才培养:指导了2名博士生、5名硕士生、6名本科生顺利毕业。所指导的硕士生中1名获得国家奖学金,1名硕士生获得微软学者称号。多名本科生获得北京大学信息学院优秀本科毕业论文。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
3

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
4

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
5

多空间交互协同过滤推荐

多空间交互协同过滤推荐

DOI:10.11896/jsjkx.201100031
发表时间:2021

李素建的其他基金

批准号:60875042
批准年份:2008
资助金额:28.00
项目类别:面上项目
批准号:90920011
批准年份:2009
资助金额:50.00
项目类别:重大研究计划
批准号:61572049
批准年份:2015
资助金额:63.00
项目类别:面上项目
批准号:60603093
批准年份:2006
资助金额:24.00
项目类别:青年科学基金项目
批准号:61876009
批准年份:2018
资助金额:64.00
项目类别:面上项目

相似国自然基金

1

基于数据融合的知识发现方法及其在网络管理中的应用

批准号:60173066
批准年份:2001
负责人:赵银亮
学科分类:F0207
资助金额:5.00
项目类别:面上项目
2

基于人类行为动力学的网络热点话题发现与预测

批准号:61170112
批准年份:2011
负责人:韩忠明
学科分类:F0607
资助金额:57.00
项目类别:面上项目
3

支持技术预见的多源异构大数据融合与时序文本预测方法研究

批准号:91646102
批准年份:2016
负责人:周源
学科分类:G03
资助金额:43.00
项目类别:重大研究计划
4

异构融合网络中用户情境感知的服务组织与发现研究

批准号:61003311
批准年份:2010
负责人:郑啸
学科分类:F0207
资助金额:20.00
项目类别:青年科学基金项目