词义消歧是计算语言学研究领域的核心问题,多年来的研究并未取得突破性进展,其主要原因是缺乏高质量大规模词义标注语料库。本项目拟从以下几个方面开展研究:(1)采用机器学习方法,从标注语料库、《现代汉语语法信息词典》、《现代汉语语义词典》等多种知识资源获取词义消歧知识;(2)对不同知识源的词义消歧知识做模式化表示处理,构建知识库;(3)构建高效的汉语词义标注模型与算法,实现大规模汉语词义标注语料库的自动构建;(4)对汉语词义标注规范的描述作结构化处理,构建词义标注规范的模式,以检验标注结果是否符合规范;(5)人工辅助校对一部分词义标注语料,作为正确性和一致性检验的训练语料,采用自动聚类、模糊匹配等技术,从训练语料中获取一致性检验的知识库,设计一致性检验的模型与算法,提高大规模汉语词义标注语料库的质量。本项目的研究方法和关键技术对其它汉语语料库的建设将具有方法论上的参考价值和意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
信息熵-保真度联合度量函数的单幅图像去雾方法
具有随机多跳时变时延的多航天器协同编队姿态一致性
制冷与空调用纳米流体研究进展
基于卷积神经网络的JPEG图像隐写分析参照图像生成方法
耐磨钢铁材料中强化相设计与性质计算研究进展
基于词语独异性特征的大规模词义标注语料库自动构建研究
汉语全文词义标注关键技术研究
大规模中文文本语料库分词与词性标注一致性检验技术研究
汉语框架语义角色自动标注技术研究