Paraphrasing refers to the transformation between synonymous expressions within a language. Acting as an important criterion for natural language understanding, paraphrasing possesses great scientific significance and application values. With respect to the bottlenecks in semantic understanding and paraphrase corpora, this project conducts a systematic study on methods of paraphrasing semantic understanding as well as the acquisition and generation of paraphrase, which is carried out in terms of how to exploit open domain corpora, how to accurately calculate the semantic distance between paraphrases and how to utilize the rich resources of other languages et al. Our research from following three perspectives probes into (1) establishing a framework based on template for acquiring paraphrase knowledge in the way of self-learning from open domains, and further studying the key techniques of paraphrase generation with multi-level knowledge, and constructing corresponding data and methods for paraphrase evaluation, which are expected to improve the performance of Chinese paraphrase study system; (2) proposing a joint model based on deep learning for parsing and paraphrase semantic computing, and a method of paraphrase semantic composition with the guidance of syntactic structures, aiming to simultaneously improve both the performance of parsing and semantic composition; (3) raising a cross-lingual paraphrase knowledge transfer mechanism to exploit common properties and corresponding relations among different languages, hoping to leverage the rich resources of other languages to advance the study of Chinese paraphrasing. The implementation of this project will further enrich and perfect Chinese paraphrase study, which is conducive to advance the process of natural language understanding and is expected to yield some innovative outcomes.
复述是同一语言内“同义异形”间的转换,是语言理解的重要标准,具有重要科学意义和应用价值。语义理解和复述语料是汉语复述研究的瓶颈,本项目将针对如何利用开放域语料、如何精准计算复述的语义距离、如何利用其它语言的丰富资源等问题,研究复述语义理解方法和基于理解的复述获取与复述生成;将从三个方面深入研究:(1)建立基于模板的开放域自学习方式的复述知识获取新框架,研究融合多层次知识的复述生成关键技术,构建复述评测数据,确立复述评测方法,以期完善汉语复述研究体系;(2)建立句法分析和复述语义计算的联合深度学习模型,研究句法指导的复述语义组合计算方法,以期同步提高汉语句法分析和复述语义计算性能;(3)建立复述知识的跨语言迁移机制,研究语言间的共性及对应关系,以期借力其它语言的丰富资源助推汉语复述研究的深入开展。本项目的实施将发展和完善汉语复述研究体系,有利于推进自然语言理解进程,有望取得一些创新性成果。
复述是指同一语义的不同表达方式,普遍存在于自然语言中,是判定机器是否理解自然语言的重要标准之一,具有重要研究意义和应用价值。本项目围绕句法分析、基于句法结构的语义组合计算、开放域复述知识获取、复述生成与识别,以及复述评测等内容展开研究,取得了以下成果:.(1)在汉语分词、词性标注、依存分析一体化模型方面,为了使模型决策时能够利用句子的全局信息,提出自顶向下的字级别汉语一体化依存分析模型;此外,提出基于图框架的一体化依存分析模型,通过设计汉字级依存分析任务,提升了三个任务的预测精度;针对汉语标注树库的语料匮乏的问题,提出了基于词汇化树邻接语法的数据增强方法。语义组合计算方面,为了获得准确的语义表示,提出联合依存分析和语义组合计算等方法。在复述知识获取方面,为了对命名实体进行消歧,提出融合实体类型信息的实体表示学习方法;针对人工获取复述模板费时费力的问题,提出开放域上基于深度语义计算的复述模板获取方法;针对复述模板语义偏移的问题,分别提出融合深度语义表示的开放域复述模板抽取和融合外部知识的开放域复述模板获取方法。在复述识别方面,针对现有的多层注意力网络中存在的错误传播、底层语义特征丢失等问题,提出基于深度交互学习的复述识别模型。复述生成方面,针对现有神经复述生成模型容易生成错误的实体词、未登录词以及重复词问题,提出融合复制机制和覆盖机制的复述生成方法;针对现有方法生成复述多样性不足的问题,提出基于多样化目标的复述生成方法;为了生成句法上变化多样的复述句,提出一种新的句法可控的复述生成方法;进一步,针对训练数据稀缺的场景,分别提出基于双向翻译的句法可控复述生成方法和无监督的句法可控复述生成方法。针对多模态场景,提出多模态复述生成方法,利用图像信息提升复述生成的忠实度和多样性。此外,还围绕知识增强的编码方法、篇章知识的建模以及图片中物体空间关系的建模与利用展开了研究,并取得一定成果。复述评测方面,针对多种主流评测指标独立使用的不便境况,提出基于深度语义的复述综合评测方法。.(2)发表国内外期刊会议论文34篇,其中期刊论文18篇,SCI期刊5篇,EI期刊10篇,北大核心3篇,EI会议16篇,其中CCF-A类会议2篇,CCF-B类会议4篇,CCF-C类会议2篇。项目培养中青年1人,博士研究生6人,硕士研究生19 人,项目达到预期成果要求。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
黄河流域水资源利用时空演变特征及驱动要素
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
基于语义图生成的开放域语义解析关键技术研究
基于谓词语义组合的现代汉语分析理论和方法
面向语义检索的汉语名名组合自动释义研究
现代汉语形-名和名-名的语义组合模型研究