词义消歧是很多相关研究领域的一项困难而又重要的基础课题。由于有指导方法所能处理的词汇有限,无指导词义消歧近年来得到了普遍关注,而知识的自动获取是无指导消歧方法的关键。同时,Web资源在计算语言学领域的应用已经越来越受到重视并取得了很好的效果。本课题提出了基于Web及知识获取的无指导汉语词义消歧技术研究方法:1)将汉语词汇基于所需不同消歧知识进行一定粒度的分类;2)利用搜索引擎在Web及现有各类语义资源上进行词汇、句法及语义等不同层次消歧知识的自动获取;3)探求面向知识的特征选择,针对不同词汇类建立多知识源混合的消歧模型及消歧算法;4)在分治与自举的框架下,进行模型与算法优化及Web噪音过滤。目的在于寻求用最小资源与代价自动获取汉语词义消歧所必须的各类有效信息,排除知识获取过程中出现的Web噪音干扰,建立适合该无指导体系的词义消歧模型,缓解数据稀疏,最终给出实用的汉语词义消歧无指导解决方案。
以项目申请书各项研究布局出发进行研究,随着研究的深入,对研究内容也进行了一定程度上有益的调整,经过近3年的研究工作,进行了多次学术交流并多次参加学术会议,基本完成了主要研究工作,达到了立项目的。. 在国际国内会议及期刊上发表相关论文14篇(7篇期刊,7篇会议),其中10篇为EI检索。参加了国际语义评测Semeval-2010,在两个任务上分别取得第一名及第三名的好成绩。利用本课题还组织了国际词义评测中文任务,构建评测标准测试集,该评测即将在Semeval-2013上进行。. 1、消歧特征对消歧性能影响的研究。主要结论是:与英文不同,中文词义消歧中的局部特征更为重要;此外,对动词歧义词宜采用较小的特征窗口,对名词歧义词宜采用较大的特征窗口。由此建立了一个有指导汉语词义消歧基线系统,性能与目前最好系统相当;. 2、利用Web获取消歧知识的研究。该部分进行了利用Web及双语词典进行词义标注语料的自动获取、挖掘基于Web的词汇间直接与间接相关关系的研究,所构建系统分别达到或超过了相应数据集无指导方法的最好性能;. 3、基于Ngram的汉语词义消歧研究。提出并验证了一个词义一个ngram的假设。在此基础上提出了利用ngram模式、利用ngram与词汇间Web相关关系、利用ngram的谷歌距离的消歧。前者在相应数据集上取得了最好结果,并将该评测参数最好系统的绝对召回率提高13%以上。后两者的性能达到了完全无指导方法的最佳。参加了Semeval2010评测,取得了单项任务的第一与第三名。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
服务经济时代新动能将由技术和服务共同驱动
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
中外学术论文与期刊的宏观差距分析及改进建议
基于等价伪词的汉语全文无指导词义消歧技术研究
基于语义范畴扩展的汉语词义消歧方法研究
基于自消歧模式的语法知识自动获取技术研究
基于Web知识挖掘与融合的命名实体消歧技术研究