基于自消歧模式的语法知识自动获取技术研究

基本信息
批准号:61103089
项目类别:青年科学基金项目
资助金额:22.00
负责人:邱立坤
学科分类:
依托单位:鲁东大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:张慧丽,乐耀,翁伟,徐幸,陆顾婧
关键词:
实例化自消歧模式语法属性自动获取概率化
结项摘要

前人在语法知识自动获取方面基于统计方法进行了许多探索和实验,已取得较大进展,但与语言学知识的融合相对较少;现有语法知识库多是语言学专家人工构建的,精度比自动获取的结果高,但是在覆盖度、扩展性、定量化等方面不如自动方法。本研究尝试将语言学知识与统计方法结合起来,基于自消歧结构从大规模语料库中自动获取语法知识。所谓自消歧结构指的是具有消解自身歧义能力的结构,比如含有"了"的结构可以确定出现在"了"前面的那个动词是谓语,而不会是定语。基于自消歧结构既可以实现词语小类(如名量词、动量词)的标注,也可以实现词语搭配的语法结构关系(如动宾、定中、主谓等)的自动标注。本研究将充分利用分层次、超大规模语料库以及人工构建的自消歧结构集合,获取词语搭配的实例以及频次信息,实现语法知识库的概率化和实例化;结合未登录词词类和语义类标注,实现语法知识库的辅助修正和编纂。

项目摘要

本项目以自消歧模式为支点,以知识获取为中间目标,构建大规模词语搭配库和模式库,服务于中文分词、词性标注、句法分析和开放域关系抽取。首先,基于句法树库获取潜在歧义结构,对类型和分布进行统计分析,获取自消歧模式集,分别用于抽取主谓、动宾、动名定中和量名搭配。具体而言,基于自消歧模式从搜狗网页语料库中抽取搭配,构建两百万规模的词语搭配库,称之为“现代汉语词语搭配库”。后续实验工作表明该搭配库在句法分析和词语相似度计算上具有明显的应用价值。其次,我们注意到人类理解自然语言时的由易到难现象:人在理解语言时,如果未登录词出现在熟悉语境中则较易理解,出现在陌生语境中则难以理解,前一种语境有助于对后者的理解;自动分析程序在理解语言时会碰到类似情况,如果未登录词出现的环境是训练数据中已有的则理解结果比较好,如果中训练数据中未出现或很少出现则理解结果比较差。基于这个事实,我们基于双向扩展算法迭代地抽取未登录词上下文模式和未登录词,进而将可信度较高的未登录词及其词性转换为特征,用于改进分词和词性标注系统的性能。第三,为了抽取知识的需要,我们构建现代汉语平衡语料库、历时新闻语料库,并标注了支持依存语法和短语结构语法两种视图的多视图树库。基于这些工作,新申报发明专利一项、获授权发明专利三项;在国内外期刊会议上发表论文17篇,其中CCF A类论文1篇,B类论文3篇,EI期刊论文4篇;所开发的“现代汉语词语搭配库”和“现代汉语平衡语料库”两项资源授权给5家企事业单位使用,获取经费15万元。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响

DOI:10.7606/j.issn.1000-7601.2022.03.25
发表时间:2022
3

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

邱立坤的其他基金

批准号:61572245
批准年份:2015
资助金额:64.00
项目类别:面上项目

相似国自然基金

1

基于Web及知识获取的无指导汉语词义消歧技术研究

批准号:60903063
批准年份:2009
负责人:刘鹏远
学科分类:F0211
资助金额:17.00
项目类别:青年科学基金项目
2

汉语句法排歧知识的自动获取方法研究

批准号:69705005
批准年份:1997
负责人:孙茂松
学科分类:F03
资助金额:12.00
项目类别:青年科学基金项目
3

命名实体消歧与多源实体知识获取方法研究

批准号:61370117
批准年份:2013
负责人:王厚峰
学科分类:F0211
资助金额:81.00
项目类别:面上项目
4

基于Web知识挖掘与融合的命名实体消歧技术研究

批准号:61070106
批准年份:2010
负责人:赵军
学科分类:F0211
资助金额:36.00
项目类别:面上项目