时序多文档文摘为自动文摘领域的新方向,可应用于舆情监控,应急决策支持等领域。本课题研究面向话题演化的时序多文档文摘中抽取式内容选择方法。如何在网络信息不断更新的时序演化背景下去判定文摘内容的动态话题相关性(重要性),新颖性和覆盖性,是时序文摘内容选择面临的主要挑战。为此,对话题演化按一种新的观点建模,即动态增强代表用户需求的话题描述,形成动态的虚拟查询,充分提高查询的表达能力;同时借鉴动力系统中相关工作的研究成果,分析跨时段文档集随着时间的演化模型。依据对动态演化信息的建模,主要提出:(1)基于进化流形排序的动态话题相关内容选择算法;(2)时序谱聚类增强的动态话题相关内容选择优化;(3)发展特征向量优化选择的时序谱聚类算法来改进内容选择。由此发展在时序信息演化背景下新的流形排序和谱聚类学习算法,形成一种新的机器学习框架来解决面向话题演化的时序文摘内容选择问题,有着重要的研究价值和应用价值。
爆炸式增长的海量信息使得静态多文档文摘技术不能满足人类信息需求的变化,特别是对时序信息关注的不够,不能从时序角度总结出新的进化信息。如何对不断更新的网络演化信息提取摘要内容成为自动文摘的一个新的挑战。本课题针对这一难点凝练出了时序多文档文摘研究任务,成为自动文摘领域的新方向,是传统静态多文档文摘的自然扩展,其处理的对象跨越了同一时段的相关文档集,即处理面向话题演化的跨时段相关文档集。其主要目标是按照一定的压缩比从时序角度自动总结出系列新闻报道的内容进化,将人们从繁琐、冗余的信息中解脱出来,以帮助人们快速有效地获取信息,并为决策提供有用的参考。通过三年的探索,本课题集中围绕如何在网络信息不断更新的时序演化背景下去判定文摘内容的动态话题相关性(重要性),新颖性和覆盖性这些科学问题,采用相关的机器学习方法主要研究了:(1)基于进化流形排序的动态话题相关内容选择算法;(2)时序谱聚类增强的动态话题相关内容选择优化;(3)建立特征向量优化选择的时序谱聚类算法来改进内容选择的覆盖性。在国际评测数据集TAC2007,2008上取得了关于内容选择评价方面的良好效果,在舆情监控、非常规突发事件的应急决策支持与商业竞争情报分析等领域有着重要的研究意义和广泛的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于多模态信息特征融合的犯罪预测算法研究
双吸离心泵压力脉动特性数值模拟及试验研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
空气电晕放电发展过程的特征发射光谱分析与放电识别
面向Web话题的多文档文摘研究
面向查询的多文档自动文摘技术研究
面向查询的多文档自动文摘技术研究
基于信息重组的多文档自动文摘技术