基于依存图的汉语依存分析技术研究

基本信息
批准号:61170181
项目类别:面上项目
资助金额:55.00
负责人:陈家骏
学科分类:
依托单位:南京大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:李斌,戴新宇,尹存燕,黄书剑,赵迎功,奚宁,张颖杰,汤光超,高磊
关键词:
组块分析浅层分析长距离搭配依存分析依存图
结项摘要

依存文法对于语序灵活的汉语来说具有良好的描写能力,然而"投影性原则"使得依存树基本等价于短语结构树,没有充分体现出表示方法和分析精度的优势。为了摆脱这一限制,满足后续语义分析等应用的需要,本课题提出了基于"依存图"的汉语依存分析方法,重点研究两大问题:一是建立基于依存图的句法标注体系,给出基于原有树库的自动调整和转换方法,并研究与之相应的图搜索算法。另一方面,为了提高长句的分析精度和效率,引入浅层分析技术,使用组块分析捆绑短语使得句子扁平化,使用骨架分析识别长距离搭配以廓清句子结构;尝试用基于图的算法,将浅层分析和依存分析融合起来,最终给出实用的汉语依存图分析算法。

项目摘要

句法分析是自然语言处理的基础课题,直接影响着句子语义分析、舆情分析、智能问答、机器翻译等任务的质量。中文句法分析的研究起步较晚,虽也已建立了较大规模的树库,使用了与英语等其他语言相同的机器学习模型,但是中文句法分析的效果,无论是短语结构文法还是依存文法,始终与英语、德语、甚至起步相对较晚的阿拉伯语等语言有较大差距。提高中文句法分析的效果一直是学界和产业界的迫切需求。中文句法分析究竟是在文法体系上出现了问题,还是在模型算法上需要改进,都需要做出深入的研究和探索。.本项目针对中文句子依存分析的关键问题进行了多方面的研究。首先,借助已有的中文依存树库和语义角色库,统计得出中文句子的语义角色难以通过依存树结构推导出来,进而明确了图结构在表示中文句子语义关系上的必要性。其次,建立了中文依存图的标注体系和语料库,分析出汉语中存在的非树结构。同时,从模型算法的层面做了两个方面的探索。研究了新兴的神经网络深度学习算法,应用于中文依存分析。我们比较了不同的词向量(Word Embedding)构建方法,基于SKIP、CBOW方法,发现相比简单上下文,使用依存关系能够更好地表征词语的语义。然后,我们将结构化神经网络模型应用于依存分析,使用对比学习方法,超过了现有的有指导方法的最好结果,接近半指导和词性句法分析一体化方法的结果。在系统实现上,通过多线程、硬编码、图栈等技术,使得句子分析的平均速度达到毫秒级,系统的模型文件也减少至1/10。最后,为了提高长句分析的精度和效率,重点研究了并列结构的自动识别算法,使用Word Embedding来计算两个并列成分之间的语义相似度和结构相似度,辅以邻接可靠度的计算,使得联合结构的F-score提高了十五个百分点。.综上,本项目从理论的角度研究了图结构在依存分析中的必要性,初步建立了中文依存图语料库,在算法层面上使用深度学习技术,研究了词向量获取方法、结构化神经网络的依存分析技术、利用词向量提高联合结构识别效果,从而在整体上提高了中文依存分析的效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

陈家骏的其他基金

批准号:61672277
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:60673043
批准年份:2006
资助金额:24.00
项目类别:面上项目

相似国自然基金

1

汉语框架语义依存图自动抽取关键技术研究

批准号:60970053
批准年份:2009
负责人:李茹
学科分类:F0211
资助金额:31.00
项目类别:面上项目
2

汉语依存句法分析若干关键技术研究

批准号:60803093
批准年份:2008
负责人:车万翔
学科分类:F0211
资助金额:19.00
项目类别:青年科学基金项目
3

基于语义依存图的汉语复杂名词短语资源建设与自动分析研究

批准号:61173095
批准年份:2011
负责人:萧国政
学科分类:F0211
资助金额:57.00
项目类别:面上项目
4

知识驱动的汉语网络文本依存句法分析

批准号:61876116
批准年份:2018
负责人:李正华
学科分类:F0606
资助金额:64.00
项目类别:面上项目