词义消歧是计算语言学研究领域的核心问题,多年来的研究并未取得突破性进展,其主要原因是缺乏高质量大规模词义标注语料库。本项目拟从以下几个方面开展研究:(1)采用机器学习方法,从标注语料库、《现代汉语语法信息词典》、《现代汉语语义词典》等多种知识资源获取词义消歧知识;(2)对不同知识源的词义消歧知识做模式化表示处理,构建知识库;(3)构建高效的汉语词义标注模型与算法,实现大规模汉语词义标注语料库的自动构建;(4)对汉语词义标注规范的描述作结构化处理,构建词义标注规范的模式,以检验标注结果是否符合规范;(5)人工辅助校对一部分词义标注语料,作为正确性和一致性检验的训练语料,采用自动聚类、模糊匹配等技术,从训练语料中获取一致性检验的知识库,设计一致性检验的模型与算法,提高大规模汉语词义标注语料库的质量。本项目的研究方法和关键技术对其它汉语语料库的建设将具有方法论上的参考价值和意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
硬件木马:关键问题研究进展及新动向
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
采煤工作面"爆注"一体化防突理论与技术
基于循证实践的腰痛康复治疗国际指南解读与启示
X射线晶体结构解析技术在高分子表征研究中的应用
基于词语独异性特征的大规模词义标注语料库自动构建研究
汉语全文词义标注关键技术研究
大规模中文文本语料库分词与词性标注一致性检验技术研究
汉语框架语义角色自动标注技术研究