Word sense disambiguation (WSD) is a key foundational issue in natural language processing. Graph model can effectively express semantic relations among sense concepts and can covert WSD to the evaluation of sense node importance, whose performance is better than the others. Graph model has received much attention in recent years. However, graph-based WSD still faces some difficulties and challenges in the setting of related edge weight, evaluation of node importance and domain adaptation. Aiming at the difficulties, this project will research graph-based WSD and its domain adaptation. We will focus on the computation of sense similarity based on non-IIDness (not independent and identically distributed) learning theory, which would abandon the independence assumption of semantic attributes, analyze coupled relations among them and exactly evaluate the weight of related edges in graph model. At the same time, we will compare all kinds of evaluation strategies of graph model and propose an optimized method to evaluate node importance, which would break through the over-reliance for PageRank algorithm in graph-based WSD. Besides, we will research domain adaptation of graph-based WSD, build and adjust graph model with domain knowledge of document, discourse and sense, which would improve its disambiguation ability on special domain. This project will propose a set of perfect methods of graph-based WSD and its domain adaptation, which would promote the developments of related works, such as machine translation and information retrieval, et al.
词义消歧是自然语言处理研究的关键基础问题。图模型因其可有效表达词义概念之间的语义关联关系,可将消歧问题转化为词义结点的重要度评价问题,具有良好的消歧性能,近年来倍受关注。但是,图模型词义消歧方法在关联边权重设定、结点重要度评价和领域适应机制等方面依然面临困难和挑战。本项目将针对这些难点,研究图模型词义消歧及领域适应方法;重点研究基于非独立同分布学习理论的词义相似度计算方法,摒弃传统方法对语义属性的独立性假设,分析语义属性的耦合关系,以准确地评估图模型关联边的权重;同时,对比研究各种图模型评价策略,提出优化的结点重要度评价机制,突破图模型对PageRank算法的过度依赖;研究图模型领域适应机制,挖掘文档、篇章、词义领域知识构建并调整图模型,提高其领域消歧能力。本项目将形成一套完善的图模型词义消歧及领域适应方法,对机器翻译、信息检索等相关研究工作将起到有力的推动作用。
词义消歧是自然语言处理的基础问题之一,对上层的研究和应用具有直接影响。目前基于知识库的词义消歧方法在相似度计算、知识获取和领域适应方面存在困扰。针对这些困难,本项目围绕词语概念表示学习及相似度计算方法、词义消歧模型、领域适应及篇章分析方法展开研究。在词语概念表示学习及相似度计算方面,重点研究了基于非独立同分布学习理论的概念表示学习方法、基于Wikipedia的概念向量生成方法和词语相似度计算方法,有效提高了概念表示学习和相似度计算的效果;在词义消歧模型方面,重点研究了基于依存约束和知识的词义消歧方法、基于多分类器融合的词义消歧方法、基于句法分析和HowNet的图模型词义消歧方法,有效改善了词义消歧效果;在领域适应及篇章分析方面,重点研究了融合句子局部上下文与文档领域信息的词义消歧方法、基于互学习模型的融合层次深度语义特征的隐式篇章关系识别方法。项目组还开展了自动问答系统的研究工作,设计了多种深度神经网络模型,捕获句子的语义信息,取得了很好的实验效果。.本项目在2016-2018三年的执行期间,实现了预期的研究目标,根据进度计划逐步开展研究工作,取得了阶段性的研究成果,为项目组在语义计算领域开展更深入的研究奠定了扎实的基础。在本项目的资助下,项目组已发表学术论文15篇,其中4篇为SCI检索论文,3篇为自然语言处理领域评测会议论文;申请国家发明专利17项,国际PCT发明专利2项,目前已有1项取得专利授权证书,2项已进入授权制证阶段;另有3篇论文处于审稿阶段;已超额完成项目的考核指标。本项目的研究成果对于语义计算、机器翻译、自动问答系统的研究具有重要的理论和应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
涡度相关技术及其在陆地生态系统通量研究中的应用
低轨卫星通信信道分配策略
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
钢筋混凝土带翼缘剪力墙破坏机理研究
气载放射性碘采样测量方法研究进展
基于语义范畴扩展的汉语词义消歧方法研究
面向大数据的中文词义消歧模型优化研究
英汉双向机器翻译词义消歧的研究
基于Web及知识获取的无指导汉语词义消歧技术研究