基于词语独异性特征的大规模词义标注语料库自动构建研究

基本信息

批准号：60703063

项目类别：青年科学基金项目

资助金额：20.00

负责人：吴云芳

学科分类：

依托单位：北京大学

批准年份：2007

结题年份：2010

起止时间：2008-01-01 - 2010-12-31

项目状态：已结题

项目参与者：常宝宝,张化瑞,邵艳秋,苏祺,金澎,裴雨来,王波

关键词：

词语独异性特征词义消歧主动学习词义区分自举方法

结项摘要

词义消歧是计算语言学领域的一个核心研究课题。历经半个多世纪的努力，词义消歧研究并未取得突破性进展，其中一个重要原因就是缺乏大规模高质量的词义标注语料库。本课题的研究目标就是采用机器学习方法，实现人和机器的良性互动，探讨大规模词义标注语料库自动构建的理论和方法。研究内容主要包括：1)人工构建一个小规模词义标注语料库作为初始训练集；2)基于Web采用自举方法自动扩充低频义项例句；3)语言学指导下自动学习每个多义词的词语独异性消歧特征，基于支持向量机实现高效的词义自动消歧；4)利用大规模汉语基本标注语料库，采用主动学习方法选择信息增益最大的例句，自动构建大规模词义标注语料库。本课题的研究成果将大大促进汉语词义消歧的研究与应用，所构建的词义标注语料库将力争成为汉语词义消歧研究训练和测试的基准语料，其研究方法和关键技术对其他汉语语料库建设也将具有方法论上的参考意义。

项目摘要

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：10.1360/SSM-2020-0035

发表时间：2020

DOI：

发表时间：2017

DOI：10.19762/j.cnki.dizhixuebao.2021191

发表时间：2021

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

吴云芳的其他基金

批准号：61773026

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：61371129

批准年份：2013

资助金额：80.00

项目类别：面上项目

相似国自然基金

基于大规模语料库的汉语词语自动聚类研究

批准号：69973015

批准年份：1999

负责人：王晓龙

学科分类：F0211

资助金额：12.00

项目类别：面上项目

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号：60873013

批准年份：2008

负责人：张仰森

学科分类：F0201

资助金额：32.00

项目类别：面上项目

大规模图像数据自动标注算法研究

批准号：60873178

批准年份：2008

负责人：薛向阳

学科分类：F0605

资助金额：30.00

项目类别：面上项目

基于Web的大规模双语语料库挖掘及翻译知识自动获取

批准号：60603095

批准年份：2006

负责人：吕雅娟

学科分类：F0211

资助金额：26.00

项目类别：青年科学基金项目

基于词语独异性特征的大规模词义标注语料库自动构建研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

现代优化理论与应用

汽车侧倾运动安全主动悬架LQG控制器设计方法

四川盆地东部垫江盐盆三叠系海相钾盐成钾有利区圈定:地球物理和地球化学方法综合应用

基于直观图的三支概念获取及属性特征分析

吴云芳的其他基金

基于文档的智能问答的关键技术研究与资源建设

基于汉语话题的句际关系自动分析研究

相似国自然基金