基于词语独异性特征的大规模词义标注语料库自动构建研究

基本信息
批准号:60703063
项目类别:青年科学基金项目
资助金额:20.00
负责人:吴云芳
学科分类:
依托单位:北京大学
批准年份:2007
结题年份:2010
起止时间:2008-01-01 - 2010-12-31
项目状态: 已结题
项目参与者:常宝宝,张化瑞,邵艳秋,苏祺,金澎,裴雨来,王波
关键词:
词语独异性特征词义消歧主动学习词义区分自举方法
结项摘要

词义消歧是计算语言学领域的一个核心研究课题。历经半个多世纪的努力,词义消歧研究并未取得突破性进展,其中一个重要原因就是缺乏大规模高质量的词义标注语料库。本课题的研究目标就是采用机器学习方法,实现人和机器的良性互动,探讨大规模词义标注语料库自动构建的理论和方法。研究内容主要包括:1)人工构建一个小规模词义标注语料库作为初始训练集;2)基于Web采用自举方法自动扩充低频义项例句;3)语言学指导下自动学习每个多义词的词语独异性消歧特征,基于支持向量机实现高效的词义自动消歧;4)利用大规模汉语基本标注语料库,采用主动学习方法选择信息增益最大的例句,自动构建大规模词义标注语料库。本课题的研究成果将大大促进汉语词义消歧的研究与应用,所构建的词义标注语料库将力争成为汉语词义消歧研究训练和测试的基准语料,其研究方法和关键技术对其他汉语语料库建设也将具有方法论上的参考意义。

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
4

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

吴云芳的其他基金

批准号:61773026
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:61371129
批准年份:2013
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

基于大规模语料库的汉语词语自动聚类研究

批准号:69973015
批准年份:1999
负责人:王晓龙
学科分类:F0211
资助金额:12.00
项目类别:面上项目
2

汉语词义标注语料库的自动构建及一致性检验技术研究

批准号:60873013
批准年份:2008
负责人:张仰森
学科分类:F0201
资助金额:32.00
项目类别:面上项目
3

大规模图像数据自动标注算法研究

批准号:60873178
批准年份:2008
负责人:薛向阳
学科分类:F0605
资助金额:30.00
项目类别:面上项目
4

基于Web的大规模双语语料库挖掘及翻译知识自动获取

批准号:60603095
批准年份:2006
负责人:吕雅娟
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目