词义消歧是计算语言学领域的一个核心研究课题。历经半个多世纪的努力,词义消歧研究并未取得突破性进展,其中一个重要原因就是缺乏大规模高质量的词义标注语料库。本课题的研究目标就是采用机器学习方法,实现人和机器的良性互动,探讨大规模词义标注语料库自动构建的理论和方法。研究内容主要包括:1)人工构建一个小规模词义标注语料库作为初始训练集;2)基于Web采用自举方法自动扩充低频义项例句;3)语言学指导下自动学习每个多义词的词语独异性消歧特征,基于支持向量机实现高效的词义自动消歧;4)利用大规模汉语基本标注语料库,采用主动学习方法选择信息增益最大的例句,自动构建大规模词义标注语料库。本课题的研究成果将大大促进汉语词义消歧的研究与应用,所构建的词义标注语料库将力争成为汉语词义消歧研究训练和测试的基准语料,其研究方法和关键技术对其他汉语语料库建设也将具有方法论上的参考意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法
现代优化理论与应用
汽车侧倾运动安全主动悬架LQG控制器设计方法
四川盆地东部垫江盐盆三叠系海相钾盐成钾有利区圈定:地球物理和地球化学方法综合应用
基于直观图的三支概念获取及属性特征分析
基于大规模语料库的汉语词语自动聚类研究
汉语词义标注语料库的自动构建及一致性检验技术研究
大规模图像数据自动标注算法研究
基于Web的大规模双语语料库挖掘及翻译知识自动获取