All-word sense tagging of texts serves as the important prelude of text understanding. Currently all-word sense tagging of Chinese texts focuses mainly on the WSD tasks of polysemous words and cannot provide solutions to word sense predictions of OOVs, word sense tagging of lexical entries with incomplete senses, word sense tagging of idiomatic expressions and multi-word expressions, the construction of word sense knowledge bases, etc. Our application aims to conduct research on the following topics: .(1)To integrate available resources on word sense to form a complete system for word sense tagging and stipulate relevant guidelines; .(2)For the imperfection of word sense classification in lexicons, i.e. the incompletion of lexical senses in texts, we plan to establish dynamic models for identifying word senses and finding correct ones for them that appear in texts; .(3) To construct knowledge bases of idiomatic expressions and multi-word expressions for word sense tagging; .(4)To establish a combined rule-based and statistics-based model for OOV word sense prediction so as to solve the problem of OOV word sense tagging; .(5)Based on the above research, we also plan to establish a state-of-the-art platform of Chinese all-word sense tagging; .(6)Based on our platform, we plan to tag large-scale corpora and conduct post-processing with corpus-correcting technique in order to obtain quality word-sense-tagged corpora.
文本的全文词义标注是文本内容理解的前期重要的基础性工作。目前汉语的全文词义标注多关注多义词的消歧任务,仍然无法解决未登录词的词义预测、词典中缺失义项词语的义项标注、成语及惯用语、多词表达的义项标注及语义知识库的完备性等问题。本申请拟从以下几个方面进行研究:(1)将现有词义资源整合,形成完善的词义标注体系,并制定标注规范;(2)针对现有语义词典义项划分的不完善,文本中出现的义项可能在语义词典中缺失的问题,建立词义动态发现模型,自动发现文本中词语的确切词义;(3)构建成语及惯用语知识库和多词表达知识库,扩充词义词典的规模;(4)建立规则与统计相结合的未登录词语词义预测模型,解决未登录词义项标注的难题;(5)综合利用上述研究成果,建立高质量的汉语全文词义标注平台;(6)利用全文词义标注平台,对大规模语料进行词义标注,并利用语料校对技术进行后处理,形成高质量的词义标注语料。
本课题针对汉语全词标注研究的关键技术以及相关的语言资源的建设进行了系列探索研究,对标注规范的制定以及词义资源的整合与完善、词义消歧算法研究与实施、多词表达相关问题研究、词义预测等方面进行了全面的研究,取得了系列成果,并建立全文词义标注平台,对大规模语料进行词义标注。课题一直按照项目预定的计划进行,达到了预期的目标,超额完成了项目预期的成果。 .研究工作主要包括以下部分:.1.对标注规范的制定以及词义资源的整合与完善:进行了同义词和上下位词的抽取研究,并抽取出更为完整的同义词和上下位词词典,为后续的研究提供了良好的资源。.2.多词表达相关问题研究:多词表达研究主要包括N+VN和VN+N类型多词表达知识库的抽取及其应用,N+N类型多词表达的句法类型分类及其释义研究。该研究使得词义标注的研究从单词级别向多词序列扩展。.3.词义预测方法研究:构建基于重叠字模型,基于字-类别关联模型,基于规则模型以及各个模型集成,并将词嵌入引入词义预测,提出基于词向量、词性过滤和词语后缀联合模型,并根据上述模型的互补性进行多模型的级联,取得了很好的词义预测效果。.4.词义消歧算法研究与实施:统计得出SKCC中多义词总数为3052个,并对这些多义词进行了全面的义项划分。针对训练语料的稀疏性,提出基于主动学习的词义消歧方法,较好地完成了词义消歧任务。.5.全文词义标注平台的建设:平台具有词语义项查询、多义词训练实例分布查询、人工标注、词义消歧及辅助校对等模块。基于该平台,对2000年人民日报语料进行了词义标注,验证了平台的高效性。.本课题的主要研究成果包括:发表期刊论文35篇,会议论文29篇。其中,SCI检索论文1篇,EI检索论文24篇,CSSCI检索论文2篇,在国际顶级会议IJCAI论文2篇, ACL, EMNLP各发表1篇论文。建立了大规模的同义词、上下位词的词典和大规模语言标注语料库。培养博士研究生毕业3名、硕士研究生12名,指导本科毕业生20名。1名本科毕业生获得江苏省优秀毕业论文三等奖。 3名本科毕业生获得南京师范大学优秀百篇本科毕业论文。1名研究生获得南京师范大学优秀硕士论文。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
基于LASSO-SVMR模型城市生活需水量的预测
内点最大化与冗余点控制的小型无人机遥感图像配准
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于等价伪词的汉语全文无指导词义消歧技术研究
汉语词义标注语料库的自动构建及一致性检验技术研究
基于概念的汉语全文检索技术研究
汉语全文自动理解系统