新闻与社交媒体协同的主题演化摘要研究

基本信息
批准号:61402191
项目类别:青年科学基金项目
资助金额:26.00
负责人:胡珀
学科分类:
依托单位:华中师范大学
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:李波,余一骄,张勇,郭喜跃,莫鹏,罗星
关键词:
主题演化摘要平衡优化主题分析跨媒体协同语义关联
结项摘要

The existing research on topic summarization generally ignored the fact that the spread of a topic is usually dynamic and cross-media in synergy, thus leading to the lack of multi-dimensional joint observation and dynamic depth analysis for the topic. In view of this, we propose to extend the scope of current topic summarization from static texts under single source to dynamic texts under multiple sources, for generating the topic evolutionary summary based on the combination of information sources from news and social media. For this goal, we propose a hybrid association method to establish the semantic links between cross-media texts, which can not only alleviate the problem of data sparseness of social media texts, but also add the missing social dimension for news texts. To overcome the limitations of the current topic analysis methods that only can deal with the homogeneous texts and the clustering results contain only objects of the same type, we propose a novel subtopic discovery approach based on the collaborative modeling and analysis via a heterogeneous information network, where different types of objects can be automatically aggregated to collaboratively interpret the subtopic. In order to generate the summary sequence reflecting the evolutionary trajectory of a topic under the joint perspective, we propose a balance-based optimization strategy in a unified framework, which has the advantage of integrating the multiple factors such as coverage, diversity, cross-media complementarity, and coherence, etc. This study has important significance on the synergistic value of heterogeneous and cross-media information on organizing, mining, and refining the topic content and the development of it.

现有主题摘要研究普遍忽视了主题在网络传播中的动态性与跨媒体协同共振性,因而缺乏对主题的多维联合观察及动态深度解析。鉴于此,本项目提出将主题摘要范畴从单信息源下的静态文本拓展到多信息源下的动态文本,以生成新闻与社交媒体联合的主题演化摘要为目标。针对此目标,我们提出了建立跨媒体文本间语义联系的混合关联方法,既能缓解社交文本的数据稀疏问题,又能扩充新闻文本缺失的社会维度;为了克服主题分析大多仅针对同质文本且分析结果仅包含同种类型对象的局限性,我们提出了基于异质对象协同建模分析的子主题发现方法,能自动聚合不同类型的对象来协同诠释子主题;为了生成联合视角下反映主题发展演化轨迹的摘要序列,我们提出在统一的框架下融合对信息覆盖性、多样性、跨媒体互补性、连贯性等多因素的平衡优化策略。本研究对揭示异质的跨媒体信息在组织、挖掘与提炼主题要旨及主题发展动态方面的协同价值具有重要的意义。

项目摘要

按研究计划书要求,我们按时完成了本项目的主要研究内容,实现了预期的研究目标。在项目执行中,我们系统探索了主题演化摘要生成中的若干关键问题,围绕获取并建立不同媒体文本间的语义联系,发现文本集中的隐含主题及其关系,从多视角、多因素联合的角度生成主题演化摘要等方面开展研究,提出了一系列有效的解决方案。1)针对主题相关的跨媒体信息获取及融合,我们提出了改进的基于主题信息融合的检索模型,能将文本中主题语义信息融入到检索模型中,提高相关媒体文本信息的获取质量。在跨媒体信息融合方面,我们提出了一种基于词嵌入学习的方法,可将不同类型的文本通过变换映射到具有相同维度的低维稠密向量空间,以克服传统文本浅层匹配时的词汇语义鸿沟问题,提高异质媒体文本关联计算的精度。此外,我们还提出了融合媒体内容特征、语义距离及时间特征的回归模型自动建立跨媒体文本间的语义联系;2)针对主题发现及演化分析,我们提出了基于改进Bayesian Rose Trees的主题发现技术,该技术综合考虑类簇间的层次语义与主题间的内容相似度,能及时发现主题并建立主题层次树。提出的基于KL散度的加权计算可对同一时间段内及相邻时间段间的主题做关联分析并解析主题的发展演化过程;3)针对多视角下的主题要点提炼及演化摘要生成,我们提出了一种基于主题增强的抽取式演化摘要生成方法,该方法综合了相关性、冗余性、连贯性、新颖性和互补性来优化全局时间轴摘要的生成。为了改善局部主题摘要的质量,我们提出了基于超图的协同抽取方法及基于次模函数的社交媒体摘要方法,前一种方法能利用句子与词之间的高阶关系来生成新闻、社交媒体的摘要及关键词,后一种方法通过内容相关性、多样性、主观情感覆盖性来优化摘要的生成。此外,我们还探索提出了基于神经网络的生成式摘要模型,通过联合注意力机制将文本主题信息自然融入到摘要句的生成过程中以改善摘要质量。基于上述研究,我们获得第十二届国际自然语言处理与知识工程学术会议的最佳论文奖,申请并获得软件著作权授权5项,在ACL、WWW、自动化学报、中文信息学报等国际国内重要学术会议及期刊上发表(含录用)学术论文10余篇。设计开发的中文生成式自动摘要系统参与由中国计算机学会中文信息技术专委会组织的NLPCC 2017自动文摘评测比赛,取得了所有参赛队中排名第一的最佳成绩。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

胡珀的其他基金

批准号:41006013
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:11205098
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:41476018
批准年份:2014
资助金额:95.00
项目类别:面上项目

相似国自然基金

1

面向社交媒体的多粒度主题演化关键问题研究

批准号:61403238
批准年份:2014
负责人:陈千
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目
2

突发公共卫生事件社交媒体信息主题演化与影响力建模

批准号:71603189
批准年份:2016
负责人:安璐
学科分类:G0414
资助金额:18.00
项目类别:青年科学基金项目
3

面向互联网新闻事件的演化式摘要研究

批准号:61402314
批准年份:2014
负责人:王红玲
学科分类:F0211
资助金额:24.00
项目类别:青年科学基金项目
4

新闻话题线索与主题的探测研究

批准号:60873134
批准年份:2008
负责人:李芳
学科分类:F0211
资助金额:30.00
项目类别:面上项目