词义消歧是计算语言学领域的一个核心研究课题。历经半个多世纪的努力,词义消歧研究并未取得突破性进展,其中一个重要原因就是缺乏大规模高质量的词义标注语料库。本课题的研究目标就是采用机器学习方法,实现人和机器的良性互动,探讨大规模词义标注语料库自动构建的理论和方法。研究内容主要包括:1)人工构建一个小规模词义标注语料库作为初始训练集;2)基于Web采用自举方法自动扩充低频义项例句;3)语言学指导下自动学习每个多义词的词语独异性消歧特征,基于支持向量机实现高效的词义自动消歧;4)利用大规模汉语基本标注语料库,采用主动学习方法选择信息增益最大的例句,自动构建大规模词义标注语料库。本课题的研究成果将大大促进汉语词义消歧的研究与应用,所构建的词义标注语料库将力争成为汉语词义消歧研究训练和测试的基准语料,其研究方法和关键技术对其他汉语语料库建设也将具有方法论上的参考意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
基于全模式全聚焦方法的裂纹超声成像定量检测
基于大规模语料库的汉语词语自动聚类研究
汉语词义标注语料库的自动构建及一致性检验技术研究
大规模图像数据自动标注算法研究
基于Web的大规模双语语料库挖掘及翻译知识自动获取