面对信息时代海量的多媒体数据,以智能处理手段实现高效的信息检索和数据管理的需求已极为迫切。自动摘要技术能够实现对文档内容的压缩和精炼,是信息快速获取和数据有效管理的关键技术。面向文本的自动摘要在国内外得到广泛关注,而口语文档自动摘要技术的研究则刚刚起步。最直接的口语自动摘要实现方案是先对口语文档进行语音识别,再利用文本摘要技术自动提取口语文档摘要,但这个方案既不利于处理语音识别引入的错误,也不利于挖掘口语文档所携带的大量信息。本课题将超越上述串行框架,充分挖掘口语文档中语音信号和识别得到的文本中所蕴含的各种信息,针对自动提取高性能口语文档摘要的目标进行整体设计和优化。研究内容包括:面向口语自动摘要任务的特征选择,面向不同特征的多分类器设计和参数学习算法,多知识源融合的测度统一的整体模型,从最优化角度研究高效覆盖口语文档内容的摘要提取方法等。本课题的研究对口语文档的理解和使用具有重要价值。
随着语音识别,转录等相关技术的成熟和广泛应用,无结构化的文本数据爆炸式增长。自动摘要技术是高效处理这些海量的无结构化文本数据的有效手段,具有广阔的应用前景。本项目以中文口语为对象,研究面向中文口语自动摘要的相关技术和方案。. 本项目的主要工作包括以下几个方面:1)参考了国际NIST的相关标准做法建立了同时包含音频信息、标注文本、识别文本、人工编写摘要等信息完备的用于研究中文口语自动摘要技术的BN数据集;2)详细的探索了句子的结构特征、词汇特征、语义特征、声学特征等多源信息的特征表示和相关特性;3)在摘要句提取上,分别探索了基于MMR框架、基于主题分布学习、基于SVM分类技术、基于小世界和PageRank的图技术等多种摘要句提取算法;并系统对比研究摘要文本和识别文本上提取摘要句的各自特性,揭示了音频特征在口语摘要任务中具有重要的信息纠错和补充作用;4)为了有效解决多源特征的融合问题,在摘要提取算法中本项目重点探索了自适应组合特征法和自学习特征排序法两种高效的摘要句提取框架;其中自适应组合特征法通过在摘要句提取过程中自适应的调整特征权值简单高效的完成了多源特征的互补融合,并避免了信息的冗余;自学习特征排序法以Learning to Rank的方式自动学习多源特征的组合权重,从而有效的将各特征融合在一起综合表示句子的重要性;5)本项目还结合近年来流行的词和句子的语义向量表示技术(如word2vec和sent2vec等)进行了前沿性探索,提出了一种简单高效的自动摘要技术—鲁棒性语义表示模型。通过在BN等数据集上进行大量的实验,并采用标准的ROUGE测试,证明了本项目研究所提出的中文口语自动摘要算法的有效性。. 本项目在特征表示,特征融合,摘要提取等方面展开了深入的研究,探索了中文口语摘要的特性,提出了有效的多源特征融合和摘要提取算法;在方法层面对自动摘要技术相关研究具有重要的参考和指导意义,同时对口语文档的理解和使用也具有重要的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
中文文献自动分类技术研究
基于学术文献引文的自动摘要关键技术研究
中文信息检索及全文理解,摘要系统
中文新闻广播故事自动分割技术研究