词义相似度计算旨在自动获取与任一给定词广义相似(包括语义相似或语义相关)的相似词序列。活用所得到的相似词序列可以有效缓解数据稀疏,如平滑统计语言模型,提高自然语言处理的基本问题- - 词义消歧的准确率。本课题的重要创新是结合汉语特点,提出基于大规模语料库的新的词义相似度计算方法。研究内容包括:1)博采多种基于上下文分布特征获取相似词的算法之长,并利用汉语特有的诸如名量搭配之类的可以表征词义的句法关系,提炼新的算法,得到给定词的初步的相似词序列;2)利用汉语的"部首偏旁表字义、字义表词义"的构词知识,增加与给定词具有相同表义字或相同表义偏旁部首的那些相似词的权重,调整相似词序列;3)提出词义相似度计算的评测方法,制备高质量的标准数据;将词义相似度计算作为构件嵌入到其他自然语言处理实用系统,检验效果。申请人在本领域完成了博士论文,组织过多次国际评测,基础扎实,积累丰富。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
钢筋混凝土带翼缘剪力墙破坏机理研究
空间群组目标相似度计算模型研究
基于深度学习的句子相似度计算研究
面向医学特定疾病的问题分析和相似度计算模型研究
基于内蕴几何结构的颅面相似度计算与复原