汉语抽象意义表示关键技术研究

基本信息
批准号:61772278
项目类别:面上项目
资助金额:65.00
负责人:曲维光
学科分类:
依托单位:南京师范大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:薛念文,俞士汶,周俊生,李斌,顾彦慧,戴茹冰,顾敏,闻媛,吴泰中
关键词:
抽象语义表示AMR解析联合模型语料库标注语义理解
结项摘要

Abstract Meaning Representation (AMR) is a way to represent the abstract meaning of sentences. It represents the meaning of a sentence as a single-rooted directed acyclic graph. In the graph, content words are abstracted as conceptual nodes and relationships among content words are represented as directed edges with semantic relation tags, while the implicit meanings expressed by functional words and inflections are ignored. At the same time, the method allows for addition of concepts that are missing or omitted in the sentence so as to achieve full representation of sentence meaning and better semantic generation. At the moment, the study of Abstract Meaning Representation for Chinese is at its initial stage. This project plans to conduct research in the following aspects: (1) Design an appropriate and efficient tagging system for Chinese AMR; (2) Construct a large scale AMR corpus with high quality; (3) Build models and algorithms for semantic interpretation with AMR, including the algorithms based on concept embedding and transitional neural networks with global normalization, and the semantic interpretation model based on Chinese dependency parsing and AMR within the framework of multi-task deep learning; (4) Explore the application of AMR by putting into use high-performance AMR interpreter in fields such as information retrieval.

抽象语义表示(Abstract Meaning Representation, AMR)是一种抽象的句子级语义表示方法。它将一个句子的语义抽象为一个单根有向无环图,把句子中的实词抽象为概念节点,实词之间的关系抽象为带有语义关系标签的有向弧,忽略虚词和由形态变化体现的较虚的语义,同时允许补充句子中省略或缺失的概念,能够更加全面地描写语义,有利于语义的自动生成。目前针对汉语抽象语义表示的研究刚刚起步,本申请拟从以下方面进行研究:1. 根据汉语特点,设计一个合理有效的汉语AMR标注规范;2.开发和构建一个大规模、高质量的汉语AMR标注语料库;3. 研究AMR解析模型与算法,包括基于概念嵌入和全局归一化转移神经网的AMR解析算法和在深度多任务学习框架下探索中文依存句法与AMR联合分析模型;4. 在高性能AMR解析器的支持下,选择信息抽取等实际应用领域,探索AMR语义表示结构的应用价值。

项目摘要

课题组针对汉语抽象语义表示的关键技术以及相关的语言资源的准备进行了一系列的探索研究,对标注规范的制定、语料库标注和校对、AMR解析算法设计、语言成分缺省补全、AMR图结构的消解等方面进行了全面研究,取得了系列成果。课题一直按照预定的计划进行,超额完成了项目预期的目标。 研究工作主要包括: .1)汉语抽象语义表示标注规范的制定与语料库的构建:分别制定了概念对齐的句子级汉语抽象语义表示标注规范和篇章级汉语抽象语义表示标注规范,并在此基础上构建了大规模的句子级汉语抽象语义表示语料CA-CAMR和篇章级汉语抽象语义表示语料CDAMR。.2)围绕抽象语义表示的解析进行了系列研究,提出了基于转移神经网络的汉语AMR解析方法和利用依存句法分析辅助增强AMR解析方法。.3)针对汉语AMR构成图的主要因素,对汉语中兼语和连动现象进行了全面深入的研究,并最终对V+V现象进行了全面的解析,提升了AMR重入边的解析性能。.4)针对汉语中的缺省问题进行了深入研究。对汉语中常见的零指代问题、“的”字结构和数量名结构的缺省进行研究,提出相应缺省检测和缺省补全算法,提升了AMR的解析性能。.5)还对AMR中的一些问题,如离合现象、构式问题进行了有益的探讨。.研究的成果在ACL,EMNLP等顶级会议,WWWJ、NLE等期刊上发表;申请软件著作权6项;培养了一批从事自然语言处理的人才,达到了预期的目标。主要研究成果包括:1)理论成果:发表期刊论文22篇,会议论13篇。其中,SCI检索论文7篇,EI检索论文11篇,CSSCI检索论文3篇,在国际顶级会议ACL funding, EMNLP各发表1篇论文。2)资源建设:建立大规模的句子级汉语抽象表示语料库CA-CAMR和篇章级汉语抽象表示语料库CDAMR,为后续的研究打下基础。3)学术交流:与美国布兰迪斯大学、澳大利亚悉尼科技大学、澳门大学、北京大学、苏州大学、南京大学、中科院自动化所、北京语言大学、哈尔滨工业大学等学术机构以及字节跳动、华为诺亚方舟等企业进行学术交流、资源转让与技术合作。4)人才培养:培养博士研究生毕业2名,培养硕士研究生15名,指导本科毕业生20名。有3个团队获国家级 “大学生实践创新训练计划重点项目”立项并顺利结题。1名本科毕业生获得江苏省优秀毕业论文二等奖。1名本科毕业生获得南京师范大学优秀百篇本科毕业论文。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

曲维光的其他基金

批准号:61272221
批准年份:2012
资助金额:81.00
项目类别:面上项目
批准号:60773173
批准年份:2007
资助金额:30.00
项目类别:面上项目

相似国自然基金

1

汉语篇章话题结构:形式化表示体系、语料库构建及其关键技术研究

批准号:61673290
批准年份:2016
负责人:周国栋
学科分类:F03
资助金额:65.00
项目类别:面上项目
2

汉语隐喻理解关键技术研究

批准号:60773173
批准年份:2007
负责人:曲维光
学科分类:F0211
资助金额:30.00
项目类别:面上项目
3

基于网络抽象的SDN编程方法关键技术研究

批准号:61602264
批准年份:2016
负责人:王俊昌
学科分类:F0207
资助金额:20.00
项目类别:青年科学基金项目
4

汉语全文词义标注关键技术研究

批准号:61272221
批准年份:2012
负责人:曲维光
学科分类:F0211
资助金额:81.00
项目类别:面上项目