基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

基本信息

批准号：61502259

项目类别：青年科学基金项目

资助金额：20.00

负责人：鹿文鹏

学科分类：

依托单位：齐鲁工业大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：鉴萍,杨春花,席素梅,佘萧寒,王燕春,类兴明,张鑫

关键词：

词义消歧领域适应非独立同分布学习理论词义相似度

结项摘要

Word sense disambiguation (WSD) is a key foundational issue in natural language processing. Graph model can effectively express semantic relations among sense concepts and can covert WSD to the evaluation of sense node importance, whose performance is better than the others. Graph model has received much attention in recent years. However, graph-based WSD still faces some difficulties and challenges in the setting of related edge weight, evaluation of node importance and domain adaptation. Aiming at the difficulties, this project will research graph-based WSD and its domain adaptation. We will focus on the computation of sense similarity based on non-IIDness (not independent and identically distributed) learning theory, which would abandon the independence assumption of semantic attributes, analyze coupled relations among them and exactly evaluate the weight of related edges in graph model. At the same time, we will compare all kinds of evaluation strategies of graph model and propose an optimized method to evaluate node importance, which would break through the over-reliance for PageRank algorithm in graph-based WSD. Besides, we will research domain adaptation of graph-based WSD, build and adjust graph model with domain knowledge of document, discourse and sense, which would improve its disambiguation ability on special domain. This project will propose a set of perfect methods of graph-based WSD and its domain adaptation, which would promote the developments of related works, such as machine translation and information retrieval, et al.

词义消歧是自然语言处理研究的关键基础问题。图模型因其可有效表达词义概念之间的语义关联关系，可将消歧问题转化为词义结点的重要度评价问题，具有良好的消歧性能，近年来倍受关注。但是，图模型词义消歧方法在关联边权重设定、结点重要度评价和领域适应机制等方面依然面临困难和挑战。本项目将针对这些难点，研究图模型词义消歧及领域适应方法；重点研究基于非独立同分布学习理论的词义相似度计算方法，摒弃传统方法对语义属性的独立性假设，分析语义属性的耦合关系，以准确地评估图模型关联边的权重；同时，对比研究各种图模型评价策略，提出优化的结点重要度评价机制，突破图模型对PageRank算法的过度依赖；研究图模型领域适应机制，挖掘文档、篇章、词义领域知识构建并调整图模型，提高其领域消歧能力。本项目将形成一套完善的图模型词义消歧及领域适应方法，对机器翻译、信息检索等相关研究工作将起到有力的推动作用。

项目摘要

词义消歧是自然语言处理的基础问题之一，对上层的研究和应用具有直接影响。目前基于知识库的词义消歧方法在相似度计算、知识获取和领域适应方面存在困扰。针对这些困难，本项目围绕词语概念表示学习及相似度计算方法、词义消歧模型、领域适应及篇章分析方法展开研究。在词语概念表示学习及相似度计算方面，重点研究了基于非独立同分布学习理论的概念表示学习方法、基于Wikipedia的概念向量生成方法和词语相似度计算方法，有效提高了概念表示学习和相似度计算的效果；在词义消歧模型方面，重点研究了基于依存约束和知识的词义消歧方法、基于多分类器融合的词义消歧方法、基于句法分析和HowNet的图模型词义消歧方法，有效改善了词义消歧效果；在领域适应及篇章分析方面，重点研究了融合句子局部上下文与文档领域信息的词义消歧方法、基于互学习模型的融合层次深度语义特征的隐式篇章关系识别方法。项目组还开展了自动问答系统的研究工作，设计了多种深度神经网络模型，捕获句子的语义信息，取得了很好的实验效果。.本项目在2016-2018三年的执行期间，实现了预期的研究目标，根据进度计划逐步开展研究工作，取得了阶段性的研究成果，为项目组在语义计算领域开展更深入的研究奠定了扎实的基础。在本项目的资助下，项目组已发表学术论文15篇，其中4篇为SCI检索论文，3篇为自然语言处理领域评测会议论文；申请国家发明专利17项，国际PCT发明专利2项，目前已有1项取得专利授权证书，2项已进入授权制证阶段；另有3篇论文处于审稿阶段；已超额完成项目的考核指标。本项目的研究成果对于语义计算、机器翻译、自动问答系统的研究具有重要的理论和应用价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2020

DOI：

发表时间：2021

DOI：10.13634/j.cnki.mes.2022.05.020

发表时间：2022

DOI：10.11931/guihaia.gxzw201701024

发表时间：2017

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

鹿文鹏的其他基金

相似国自然基金

基于语义范畴扩展的汉语词义消歧方法研究

批准号：60603092

批准年份：2006

负责人：卢志茂

学科分类：F0211

资助金额：27.00

项目类别：青年科学基金项目

面向大数据的中文词义消歧模型优化研究

批准号：61502287

批准年份：2015

负责人：杨陟卓

学科分类：F0211

资助金额：20.00

项目类别：青年科学基金项目

英汉双向机器翻译词义消歧的研究

批准号：69775017

批准年份：1997

负责人：李生

学科分类：F0606

资助金额：9.00

项目类别：面上项目

基于Web及知识获取的无指导汉语词义消歧技术研究

批准号：60903063

批准年份：2009

负责人：刘鹏远

学科分类：F0211

资助金额：17.00

项目类别：青年科学基金项目

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

东太平洋红藻诊断色素浓度的卫星遥感研究

濒危植物海南龙血树种子休眠机理及其生态学意义

信息熵-保真度联合度量函数的单幅图像去雾方法

鹿文鹏的其他基金

相似国自然基金