多任务一体化统计复述生成技术研究

基本信息

批准号：61073126

项目类别：面上项目

资助金额：30.00

负责人：刘挺

学科分类：

依托单位：哈尔滨工业大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：赵世奇,车万翔,和为,郭宇航,付瑞吉,蓝翔,占飞,王丽杰,王莉峰

关键词：

统计复述生成复述资源复述应用任务一体化统计模型

结项摘要

复述，即对同一语义的不同表达方式，是人类语言使用中的常见现象，亦是人工智能和自然语言处理研究领域的经典课题。复述生成是指生成给定输入句的复述句，其在自然语言处理的诸多领域皆有重要应用，但目前的研究尚存很多不足。本申请旨在基于一体化的统计模型面向多种应用任务进行复述生成，其主要特点和创新点体现在如下三方面：（1）本项目将针对复述生成的自身特点及其与其它研究方向的区别为其设计专门的统计模型；（2）本项目将综合利用、分析和比较前人在复述资源获取方面的研究工作和成果，并将获取到的复述短语、复述模板和复述搭配等细粒度的复述资源用于复述生成，以解决数据不足的问题，同时生成更丰富、更有价值的复述句；（3）本项目提出的方法和模型将面向诸如"句子压缩"、"句子浅显化"以及"句子相似度计算"等多种常见且十分重要的应用任务，为其提供一体化的解决方案。

项目摘要

复述，即对同一语义的不同表达方式，是人类语言使用中的常见现象，亦是人工智能和自然语言处理研究领域的经典课题。复述生成是指生成给定输入句的复述句，其在自然语言处理的诸多领域皆有重要应用，但目前的研究尚存很多不足。本项目旨在基于一体化的统计模型面向多种应用任务进行复述生成，其主要特点和创新点体现在如下几个方面：利用多在线词典抽取复述短语；面向长尾查询改写的复述资源获取；基于统计复述生成模型的翻译语料复述；基于依存分析和句子生成的翻译语料复述；基于规则的机器翻译输入句复述。首先，利用多在线翻译语词典系统抽取复述短语的方法的基本思想是将复述短语的抽取看成是基于统计的机器翻译过程，只是这种机器翻译是借助于某种或某些中间语言进行的。我们提出利用中文复述短语的字面相似性特点，将字面相似性融入到复述短语抽取的过程中去。其次，我们还提出了两种面向长尾查询改写的复述资源获取方法：基于人工知识库和基于网络挖掘。挖掘获得了大规模的复述资源，并利用这些复述资源进行长尾查询的改写，改善查询结果。再次，我们通过基于统计的复述生成的方法对机器翻译的双语平行语料进行扩展，目的是解决机器翻译系统覆盖率不足的问题。方法对双语语料的源语言句子生成复述句，然后与对应的目标语言句子一起形成新的双语平行语料。在最终的实验中，通过我们的方法改进的翻译模型，在不同规模的数据集上均显著地超过了目前主流的机器翻译系统。第四，我们通过另一种基于依存分析与句子生成的复述方法，对机器翻译的双语平行语料进行扩展。通过这种方法扩展双语平行训练语料，可以在不引入额外语料资源的前提下，更深层次地挖掘双语平行训练语料中包含的语言学现象，进而提高训练得到的翻译模型对输入文本的覆盖程度。第五，我们提出了一种新的利用反向翻译从机器翻译的双语平行训练语料中抽取复述规则的方法。在不借助额外复述资源的前提下，我们对双语平行语料的源语言部分和目标语部分的“目标语言——源语言”翻译结果进行比较，从而获取复述规则。最后，研究了利用复述技术对例句检索式辅助翻译系统的输入查询进行改写的方法。用户输入查询检索相关例句，然后通过学习高质量的例句从而拼凑出理想的翻译结果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.7524/j.issn.0254-6108.2021021801

发表时间：2022

刘挺的其他基金

批准号：60575042

批准年份：2005

资助金额：22.00

项目类别：面上项目

批准号：61472107

批准年份：2014

资助金额：80.00

项目类别：面上项目

批准号：60203020

批准年份：2002

资助金额：15.00

项目类别：青年科学基金项目

批准号：61133012

批准年份：2011

资助金额：270.00

项目类别：重点项目

相似国自然基金

中文短语及简单句的复述技术研究

批准号：60503072

批准年份：2005

负责人：张宇

学科分类：F0211

资助金额：21.00

项目类别：青年科学基金项目

基于语义组合的开放域汉语复述研究

批准号：61876198

批准年份：2018

负责人：张玉洁

学科分类：F0606

资助金额：62.00

项目类别：面上项目

基于多任务一体化的端到端场景图像文本识别方法研究

批准号：61703316

批准年份：2017

负责人：朱安娜

学科分类：F0304

资助金额：24.00

项目类别：青年科学基金项目

支持查询语句复述的概念扩展查询方法研究

批准号：61003192

批准年份：2010

负责人：张茂元

学科分类：F0211

资助金额：20.00

项目类别：青年科学基金项目

多任务一体化统计复述生成技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

"多对多"模式下GEO卫星在轨加注任务规划

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

水中溴代消毒副产物的生成综述

刘挺的其他基金

基于等价伪词的汉语全文无指导词义消歧技术研究

基于社会媒体的产品销量预测技术

开放域问答式信息检索技术研究

篇章级中文语义分析理论与方法

相似国自然基金