面向大数据的中文词义消歧模型优化研究

基本信息
批准号:61502287
项目类别:青年科学基金项目
资助金额:20.00
负责人:杨陟卓
学科分类:
依托单位:山西大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈千,谷波,王智强,刘姝林,孙瑞瑞
关键词:
词义消歧大规模数据集知识获取模型优化
结项摘要

Word sense Disambiguation (WSD) is a task of identifying the intended meaning (sense) of a word in a certain context. It is a key problem in natural language processing. Whatever the language, ambiguity phenomenon is widespread. Especially in this era of big data, the data show the scale, diversification, fast and low value density features. Lexical ambiguity problem is becoming more and more serious. Considering the current characteristics of the data and the shortcomings of existing WSD model, this project will study from four areas:1) propose a WSD method based on the knowledge context.2)presents a WSD model based on language models, which exploits the language model to optimize the traditional supervised WSD mode.3)presents a WSD method based on context expansion.4)propose a dynamic adaptive probability method based on multiple classifier. Through this project, we are expected to form a fast and efficient disambiguation method for large-scale data, and create better conditions for the foundation of research and application of intelligent information processing in big data era.

词义消歧是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。无论是何种语言,一词多义的现象普遍存在。尤其是在当今大数据时代,数据呈现规模化、多样化、快速化和价值密度低等特点,词汇的歧义问题就显得更加严重。针对当前大数据环境下文本的特点,以及现有词义消歧模型的缺点,本课题将从四个方面展开研究:1)提出一种基于上下文语境的词义消歧模型。2)提出一种基于语言模型的词义消歧模型优化方法;3)提出一种基于上下文扩展的有监督词义消歧模型。4) 提出一种基于多分类器融合的动态自适应概率加权方法。通过本项目,有望形成面向大规模数据的快速高效词义消歧方法,为大数据时代的智能信息处理研究和应用创造更好的基础条件。

项目摘要

词义消歧是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在当前大数据时代,词汇的歧义问题就显得更加严重,本项目针对在大数据环境下,词义消歧方法所面临的消歧知识获取困难等问题,研究面向大数据的词义消歧方法。本项目将从三个方面展开研究:1)提出一种基于上下文扩展的有监督词义消歧模型。2)提出一种基于上下文翻译的词义消歧模型;3)提出一种基于大规模伪数据的词义消歧模型。这些方法从不同角度缓解了词义消歧方法在大数据环境下所面临的数据稀疏问题,有效的提高了词义消歧方法的的准确性。本项目在2016-2018为期三年的执行周期内,实现了预期的研究目标,根据进度计划稳步开展了研究工作,有计划分阶段地实现了人才培养目标,取得了阶段性的研究成果,并为项目组以后在词汇语义理解领域深入开展研究奠定了扎实的基础。在本项目资助下,目前共发表论文10余篇。本项目的研究成果,对于机器翻译、信息检索、文本分析、自动文摘、知识挖掘等具有重要的理论和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例

DOI:10.12054/lydk.bisu.148
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

杨陟卓的其他基金

相似国自然基金

1

英汉双向机器翻译词义消歧的研究

批准号:69775017
批准年份:1997
负责人:李生
学科分类:F0606
资助金额:9.00
项目类别:面上项目
2

基于语义范畴扩展的汉语词义消歧方法研究

批准号:60603092
批准年份:2006
负责人:卢志茂
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
3

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

批准号:61502259
批准年份:2015
负责人:鹿文鹏
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

基于等价伪词的汉语全文无指导词义消歧技术研究

批准号:60575042
批准年份:2005
负责人:刘挺
学科分类:F03
资助金额:22.00
项目类别:面上项目