基于Web及知识获取的无指导汉语词义消歧技术研究

基本信息
批准号:60903063
项目类别:青年科学基金项目
资助金额:17.00
负责人:刘鹏远
学科分类:
依托单位:北京语言大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:邵艳秋,王萌,朱虹,贾玉祥,孙薇薇
关键词:
数据稀疏知识获取统计学习无指导词义消歧基于Web
结项摘要

词义消歧是很多相关研究领域的一项困难而又重要的基础课题。由于有指导方法所能处理的词汇有限,无指导词义消歧近年来得到了普遍关注,而知识的自动获取是无指导消歧方法的关键。同时,Web资源在计算语言学领域的应用已经越来越受到重视并取得了很好的效果。本课题提出了基于Web及知识获取的无指导汉语词义消歧技术研究方法:1)将汉语词汇基于所需不同消歧知识进行一定粒度的分类;2)利用搜索引擎在Web及现有各类语义资源上进行词汇、句法及语义等不同层次消歧知识的自动获取;3)探求面向知识的特征选择,针对不同词汇类建立多知识源混合的消歧模型及消歧算法;4)在分治与自举的框架下,进行模型与算法优化及Web噪音过滤。目的在于寻求用最小资源与代价自动获取汉语词义消歧所必须的各类有效信息,排除知识获取过程中出现的Web噪音干扰,建立适合该无指导体系的词义消歧模型,缓解数据稀疏,最终给出实用的汉语词义消歧无指导解决方案。

项目摘要

以项目申请书各项研究布局出发进行研究,随着研究的深入,对研究内容也进行了一定程度上有益的调整,经过近3年的研究工作,进行了多次学术交流并多次参加学术会议,基本完成了主要研究工作,达到了立项目的。.  在国际国内会议及期刊上发表相关论文14篇(7篇期刊,7篇会议),其中10篇为EI检索。参加了国际语义评测Semeval-2010,在两个任务上分别取得第一名及第三名的好成绩。利用本课题还组织了国际词义评测中文任务,构建评测标准测试集,该评测即将在Semeval-2013上进行。. 1、消歧特征对消歧性能影响的研究。主要结论是:与英文不同,中文词义消歧中的局部特征更为重要;此外,对动词歧义词宜采用较小的特征窗口,对名词歧义词宜采用较大的特征窗口。由此建立了一个有指导汉语词义消歧基线系统,性能与目前最好系统相当;. 2、利用Web获取消歧知识的研究。该部分进行了利用Web及双语词典进行词义标注语料的自动获取、挖掘基于Web的词汇间直接与间接相关关系的研究,所构建系统分别达到或超过了相应数据集无指导方法的最好性能;. 3、基于Ngram的汉语词义消歧研究。提出并验证了一个词义一个ngram的假设。在此基础上提出了利用ngram模式、利用ngram与词汇间Web相关关系、利用ngram的谷歌距离的消歧。前者在相应数据集上取得了最好结果,并将该评测参数最好系统的绝对召回率提高13%以上。后两者的性能达到了完全无指导方法的最佳。参加了Semeval2010评测,取得了单项任务的第一与第三名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
3

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
4

A tale of two databases: the use of Web of Science and Scopus in academic papers

A tale of two databases: the use of Web of Science and Scopus in academic papers

DOI:10.1007/s11192-020-03387-8
发表时间:2020
5

口腔扁平苔藓研究热点前沿的可视化分析

口腔扁平苔藓研究热点前沿的可视化分析

DOI:10.7507/1672-2531.202012076
发表时间:2021

刘鹏远的其他基金

相似国自然基金

1

基于等价伪词的汉语全文无指导词义消歧技术研究

批准号:60575042
批准年份:2005
负责人:刘挺
学科分类:F03
资助金额:22.00
项目类别:面上项目
2

基于语义范畴扩展的汉语词义消歧方法研究

批准号:60603092
批准年份:2006
负责人:卢志茂
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
3

基于自消歧模式的语法知识自动获取技术研究

批准号:61103089
批准年份:2011
负责人:邱立坤
学科分类:F0211
资助金额:22.00
项目类别:青年科学基金项目
4

基于Web知识挖掘与融合的命名实体消歧技术研究

批准号:61070106
批准年份:2010
负责人:赵军
学科分类:F0211
资助金额:36.00
项目类别:面上项目