面向大数据的中文词义消歧模型优化研究

基本信息
批准号:61502287
项目类别:青年科学基金项目
资助金额:20.00
负责人:杨陟卓
学科分类:
依托单位:山西大学
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈千,谷波,王智强,刘姝林,孙瑞瑞
关键词:
词义消歧大规模数据集知识获取模型优化
结项摘要

Word sense Disambiguation (WSD) is a task of identifying the intended meaning (sense) of a word in a certain context. It is a key problem in natural language processing. Whatever the language, ambiguity phenomenon is widespread. Especially in this era of big data, the data show the scale, diversification, fast and low value density features. Lexical ambiguity problem is becoming more and more serious. Considering the current characteristics of the data and the shortcomings of existing WSD model, this project will study from four areas:1) propose a WSD method based on the knowledge context.2)presents a WSD model based on language models, which exploits the language model to optimize the traditional supervised WSD mode.3)presents a WSD method based on context expansion.4)propose a dynamic adaptive probability method based on multiple classifier. Through this project, we are expected to form a fast and efficient disambiguation method for large-scale data, and create better conditions for the foundation of research and application of intelligent information processing in big data era.

词义消歧是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。无论是何种语言,一词多义的现象普遍存在。尤其是在当今大数据时代,数据呈现规模化、多样化、快速化和价值密度低等特点,词汇的歧义问题就显得更加严重。针对当前大数据环境下文本的特点,以及现有词义消歧模型的缺点,本课题将从四个方面展开研究:1)提出一种基于上下文语境的词义消歧模型。2)提出一种基于语言模型的词义消歧模型优化方法;3)提出一种基于上下文扩展的有监督词义消歧模型。4) 提出一种基于多分类器融合的动态自适应概率加权方法。通过本项目,有望形成面向大规模数据的快速高效词义消歧方法,为大数据时代的智能信息处理研究和应用创造更好的基础条件。

项目摘要

词义消歧是指确定多义词在自然语言特定的上下文中的意义,它是自然语言处理领域的一个核心问题。在当前大数据时代,词汇的歧义问题就显得更加严重,本项目针对在大数据环境下,词义消歧方法所面临的消歧知识获取困难等问题,研究面向大数据的词义消歧方法。本项目将从三个方面展开研究:1)提出一种基于上下文扩展的有监督词义消歧模型。2)提出一种基于上下文翻译的词义消歧模型;3)提出一种基于大规模伪数据的词义消歧模型。这些方法从不同角度缓解了词义消歧方法在大数据环境下所面临的数据稀疏问题,有效的提高了词义消歧方法的的准确性。本项目在2016-2018为期三年的执行周期内,实现了预期的研究目标,根据进度计划稳步开展了研究工作,有计划分阶段地实现了人才培养目标,取得了阶段性的研究成果,并为项目组以后在词汇语义理解领域深入开展研究奠定了扎实的基础。在本项目资助下,目前共发表论文10余篇。本项目的研究成果,对于机器翻译、信息检索、文本分析、自动文摘、知识挖掘等具有重要的理论和应用价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

针对弱边缘信息的左心室图像分割算法

针对弱边缘信息的左心室图像分割算法

DOI:10.3778/j.issn.1002-8331.1911-0012
发表时间:2020
2

一种基于多层设计空间缩减策略的近似高维优化方法

一种基于多层设计空间缩减策略的近似高维优化方法

DOI:10.1051/jnwpu/20213920292
发表时间:2021
3

智能煤矿建设路线与工程实践

智能煤矿建设路线与工程实践

DOI:10.13199/j.cnki.cst.2020.07.010
发表时间:2020
4

二维FM系统的同时故障检测与控制

二维FM系统的同时故障检测与控制

DOI:10.16383/j.aas.c180673
发表时间:2021
5

药食兼用真菌蛹虫草的液体发酵培养条件优化

药食兼用真菌蛹虫草的液体发酵培养条件优化

DOI:
发表时间:2021

杨陟卓的其他基金

相似国自然基金

1

英汉双向机器翻译词义消歧的研究

批准号:69775017
批准年份:1997
负责人:李生
学科分类:F0606
资助金额:9.00
项目类别:面上项目
2

基于语义范畴扩展的汉语词义消歧方法研究

批准号:60603092
批准年份:2006
负责人:卢志茂
学科分类:F0211
资助金额:27.00
项目类别:青年科学基金项目
3

基于非独立同分布学习理论的图模型词义消歧及领域适应方法研究

批准号:61502259
批准年份:2015
负责人:鹿文鹏
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

基于等价伪词的汉语全文无指导词义消歧技术研究

批准号:60575042
批准年份:2005
负责人:刘挺
学科分类:F03
资助金额:22.00
项目类别:面上项目