复述,即对同一语义的不同表达方式,是人类语言使用中的常见现象,亦是人工智能和自然语言处理研究领域的经典课题。复述生成是指生成给定输入句的复述句,其在自然语言处理的诸多领域皆有重要应用,但目前的研究尚存很多不足。本申请旨在基于一体化的统计模型面向多种应用任务进行复述生成,其主要特点和创新点体现在如下三方面:(1)本项目将针对复述生成的自身特点及其与其它研究方向的区别为其设计专门的统计模型;(2)本项目将综合利用、分析和比较前人在复述资源获取方面的研究工作和成果,并将获取到的复述短语、复述模板和复述搭配等细粒度的复述资源用于复述生成,以解决数据不足的问题,同时生成更丰富、更有价值的复述句;(3)本项目提出的方法和模型将面向诸如"句子压缩"、"句子浅显化"以及"句子相似度计算"等多种常见且十分重要的应用任务,为其提供一体化的解决方案。
复述,即对同一语义的不同表达方式,是人类语言使用中的常见现象,亦是人工智能和自然语言处理研究领域的经典课题。复述生成是指生成给定输入句的复述句,其在自然语言处理的诸多领域皆有重要应用,但目前的研究尚存很多不足。本项目旨在基于一体化的统计模型面向多种应用任务进行复述生成,其主要特点和创新点体现在如下几个方面:利用多在线词典抽取复述短语;面向长尾查询改写的复述资源获取;基于统计复述生成模型的翻译语料复述;基于依存分析和句子生成的翻译语料复述;基于规则的机器翻译输入句复述。首先,利用多在线翻译语词典系统抽取复述短语的方法的基本思想是将复述短语的抽取看成是基于统计的机器翻译过程,只是这种机器翻译是借助于某种或某些中间语言进行的。我们提出利用中文复述短语的字面相似性特点,将字面相似性融入到复述短语抽取的过程中去。其次,我们还提出了两种面向长尾查询改写的复述资源获取方法:基于人工知识库和基于网络挖掘。挖掘获得了大规模的复述资源,并利用这些复述资源进行长尾查询的改写,改善查询结果。再次,我们通过基于统计的复述生成的方法对机器翻译的双语平行语料进行扩展,目的是解决机器翻译系统覆盖率不足的问题。方法对双语语料的源语言句子生成复述句,然后与对应的目标语言句子一起形成新的双语平行语料。在最终的实验中,通过我们的方法改进的翻译模型,在不同规模的数据集上均显著地超过了目前主流的机器翻译系统。第四,我们通过另一种基于依存分析与句子生成的复述方法,对机器翻译的双语平行语料进行扩展。通过这种方法扩展双语平行训练语料,可以在不引入额外语料资源的前提下,更深层次地挖掘双语平行训练语料中包含的语言学现象,进而提高训练得到的翻译模型对输入文本的覆盖程度。第五,我们提出了一种新的利用反向翻译从机器翻译的双语平行训练语料中抽取复述规则的方法。在不借助额外复述资源的前提下,我们对双语平行语料的源语言部分和目标语部分的“目标语言——源语言”翻译结果进行比较,从而获取复述规则。最后,研究了利用复述技术对例句检索式辅助翻译系统的输入查询进行改写的方法。用户输入查询检索相关例句,然后通过学习高质量的例句从而拼凑出理想的翻译结果。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
黄河流域水资源利用时空演变特征及驱动要素
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
中文短语及简单句的复述技术研究
基于语义组合的开放域汉语复述研究
基于多任务一体化的端到端场景图像文本识别方法研究
支持查询语句复述的概念扩展查询方法研究