基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

基本信息
批准号:61502259
项目类别:青年科学基金项目
资助金额:20.00
负责人:鹿文鹏
学科分类:
依托单位:齐鲁工业大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:鉴萍,杨春花,席素梅,佘萧寒,王燕春,类兴明,张鑫
关键词:
词义消歧领域适应非独立同分布学习理论词义相似度
结项摘要

Word sense disambiguation (WSD) is a key foundational issue in natural language processing. Graph model can effectively express semantic relations among sense concepts and can covert WSD to the evaluation of sense node importance, whose performance is better than the others. Graph model has received much attention in recent years. However, graph-based WSD still faces some difficulties and challenges in the setting of related edge weight, evaluation of node importance and domain adaptation. Aiming at the difficulties, this project will research graph-based WSD and its domain adaptation. We will focus on the computation of sense similarity based on non-IIDness (not independent and identically distributed) learning theory, which would abandon the independence assumption of semantic attributes, analyze coupled relations among them and exactly evaluate the weight of related edges in graph model. At the same time, we will compare all kinds of evaluation strategies of graph model and propose an optimized method to evaluate node importance, which would break through the over-reliance for PageRank algorithm in graph-based WSD. Besides, we will research domain adaptation of graph-based WSD, build and adjust graph model with domain knowledge of document, discourse and sense, which would improve its disambiguation ability on special domain. This project will propose a set of perfect methods of graph-based WSD and its domain adaptation, which would promote the developments of related works, such as machine translation and information retrieval, et al.

词义消歧是自然语言处理研究的关键基础问题。图模型因其可有效表达词义概念之间的语义关联关系,可将消歧问题转化为词义结点的重要度评价问题,具有良好的消歧性能,近年来倍受关注。但是,图模型词义消歧方法在关联边权重设定、结点重要度评价和领域适应机制等方面依然面临困难和挑战。本项目将针对这些难点,研究图模型词义消歧及领域适应方法;重点研究基于非独立同分布学习理论的词义相似度计算方法,摒弃传统方法对语义属性的独立性假设,分析语义属性的耦合关系,以准确地评估图模型关联边的权重;同时,对比研究各种图模型评价策略,提出优化的结点重要度评价机制,突破图模型对PageRank算法的过度依赖;研究图模型领域适应机制,挖掘文档、篇章、词义领域知识构建并调整图模型,提高其领域消歧能力。本项目将形成一套完善的图模型词义消歧及领域适应方法,对机器翻译、信息检索等相关研究工作将起到有力的推动作用。

项目摘要

词义消歧是自然语言处理的基础问题之一,对上层的研究和应用具有直接影响。目前基于知识库的词义消歧方法在相似度计算、知识获取和领域适应方面存在困扰。针对这些困难,本项目围绕词语概念表示学习及相似度计算方法、词义消歧模型、领域适应及篇章分析方法展开研究。在词语概念表示学习及相似度计算方面,重点研究了基于非独立同分布学习理论的概念表示学习方法、基于Wikipedia的概念向量生成方法和词语相似度计算方法,有效提高了概念表示学习和相似度计算的效果;在词义消歧模型方面,重点研究了基于依存约束和知识的词义消歧方法、基于多分类器融合的词义消歧方法、基于句法分析和HowNet的图模型词义消歧方法,有效改善了词义消歧效果;在领域适应及篇章分析方面,重点研究了融合句子局部上下文与文档领域信息的词义消歧方法、基于互学习模型的融合层次深度语义特征的隐式篇章关系识别方法。项目组还开展了自动问答系统的研究工作,设计了多种深度神经网络模型,捕获句子的语义信息,取得了很好的实验效果。.本项目在2016-2018三年的执行期间,实现了预期的研究目标,根据进度计划逐步开展研究工作,取得了阶段性的研究成果,为项目组在语义计算领域开展更深入的研究奠定了扎实的基础。在本项目的资助下,项目组已发表学术论文15篇,其中4篇为SCI检索论文,3篇为自然语言处理领域评测会议论文;申请国家发明专利17项,国际PCT发明专利2项,目前已有1项取得专利授权证书,2项已进入授权制证阶段;另有3篇论文处于审稿阶段;已超额完成项目的考核指标。本项目的研究成果对于语义计算、机器翻译、自动问答系统的研究具有重要的理论和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

钢筋混凝土带翼缘剪力墙破坏机理研究

钢筋混凝土带翼缘剪力墙破坏机理研究

DOI:10.15986/j.1006-7930.2017.06.014
发表时间:2017
5

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020

鹿文鹏的其他基金

相似国自然基金

1

基于语义范畴扩展的汉语词义消歧方法研究

批准号:60603092
批准年份:2006
负责人:卢志茂
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
2

面向大数据的中文词义消歧模型优化研究

批准号:61502287
批准年份:2015
负责人:杨陟卓
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
3

英汉双向机器翻译词义消歧的研究

批准号:69775017
批准年份:1997
负责人:李生
学科分类:F0606
资助金额:9.00
项目类别:面上项目
4

基于Web及知识获取的无指导汉语词义消歧技术研究

批准号:60903063
批准年份:2009
负责人:刘鹏远
学科分类:F0211
资助金额:17.00
项目类别:青年科学基金项目