基于规则学习汉语语义构词研究

基本信息
批准号:61272215
项目类别:面上项目
资助金额:72.00
负责人:亢世勇
学科分类:
依托单位:鲁东大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:徐艳华,张志旺,张志毅,王东海,姜岚,王兴隆,解海江,冯海霞,李连伟
关键词:
语义构词数据挖掘机器学习规则集未登录词
结项摘要

The recgonition and understanding of out of vocabulary (oov) words is a "bottleneck" problem in natrual language understanding and machine learning. The community made some achivements in semantic construction in past decades, but oov problem still stand which we believe is mainly caused by the shortage of such knowledge base with solid semantic construction rules. This project is aim to retrive such rules and apply to understand the oov words by employing data mining and machine learning technology. We will work on following problems:.(1).proofread and expand the "Chinese Semantic Construction Database", from which we generate training data..(2).abstract semantic construction rules using data mining technology. We will employ annotators to check the results to garanttee that the results are accurate..(3).test the semantic construction rules in verification experiment, from which the semantic construction dataset is generated..(4).apply the dataset in oov predictation and understanding..The achivements of this projects makes contribution in Chinese lexical semantics, enhances the theory research work in Chinese lexical semantics; secondly, it can be an important resources for computational linguistics, especially for natrual languge understianding and machine learning; finally, we believe the community of teaching Chinese as second language can also get benefits from our work.

在自然语言理解和机器翻译系统中,未登录词的识别和理解一直是难以突破的"瓶颈"问题,尽管学者们经过半个多世纪的努力在语义构词方面取得了一定的成果,但对于该问题的解决并没有取得突破性的进展,其中一个重要原因就是缺乏详尽可靠的语义构词规则。本课题的研究目标就是采用数据挖掘和机器学习技术,通过人机互动,总结语义构词规则并将它运用到未登录词的语义理解中。研究内容主要包括:(1)校对并扩充已建成的《汉语语义构词数据库》,并抽取一定的训练集;(2)利用数据挖掘技术提取语义构词规则,采用人工干预确保规则的准确性;(3)将这些规则运用到验证集中,通过反复调试得到最终的语义构词规则集;(4)将规则应用到未登录词的预测和理解。本课题的研究成果从理论上说可以推动汉语词汇语义学的发展,丰富和完善汉语词汇语义学理论;从实践上来看有利于推动计算语言学尤其是自然语言理解和机器翻译的进程,也有助于对外汉语教学实践。

项目摘要

本项目在进一步完善《汉字义类信息库》的基础上,通过对大规模语料库中复合词的语义类别进行语义标注,扩充并构建了《汉语新词语语义构词数据库》,然后应用数据挖掘和机器学习的方法从中学习和提取汉语语义构词规则,并对汉语复合词的语义类别及其构词模式进行预测分析,以服务于未登录词的识别、自然语言理解、自动释义和机器翻译。首先,在广泛收集1978年以来的新词语的基础上,采用梅家驹《同义词词林》中的义类分类体系,结合亢世勇主编的《汉字义类信息库》对收集的所有双音节新词语和三音节合成词单个字和词义进行了语义标注,在此基础上建立了《汉语新词语语义构词数据库》,其次,通过利用语言学的知识对上述的新词语构词模式进行详尽的研究和分析,重点是厘清语素义和词义之间的各种复杂关系。经过分析我们发现并系统总结了汉语双音节复合词的a+b=a=b,a+b=a,a+b=b,a+b=c,a+b=a+b,a+b=a+b+d, a+b=a+d,a+b=d+b等八种类型和三音节新词语的a+b+c=(a+b)+c,a+b+c=(a+b) +d,a+b+c=a+(b+c),a+(b+c)=d+(b+c),a+b+c=d+c,a+(b+c)=a+d,a+b+c=a+b+c,a+b+c=(a+c) +(b+c),a+b+c=d等九种类型,对这些模式进行了统计描述和分析。最后,采用数据挖掘和机器学习的方法,试图把语素义经过整合转化为词义的构词规律“教”给计算机,让计算机运用“学”到的语义构词规则和数学模型对未登录词的语义构词模式进行预测、识别和理解,以服务于中文信息处理和自然语言理解。.本项目研究成果共计发表23篇论文,其中SCI收录3篇,EI收录11篇,CSCD收录4篇,其他期刊和国际会议论文集收录3篇,2篇已经录用,正在出版中;出版相关学术著作(词典)4本。在本项目的资助下指导并培养了该领域的6名硕士研究生,其中5名顺利毕业,1名论文基本完成。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

亢世勇的其他基金

相似国自然基金

1

结合分布相似和汉语构词特征的词义相似度计算

批准号:61003206
批准年份:2010
负责人:金澎
学科分类:F0211
资助金额:7.00
项目类别:青年科学基金项目
2

基于语义组合的开放域汉语复述研究

批准号:61876198
批准年份:2018
负责人:张玉洁
学科分类:F0606
资助金额:62.00
项目类别:面上项目
3

汉语语义知识获取与语义计算模型研究

批准号:90920005
批准年份:2009
负责人:何婷婷
学科分类:F0211
资助金额:50.00
项目类别:重大研究计划
4

汉语语义角色标注方法研究

批准号:60675034
批准年份:2006
负责人:秦兵
学科分类:F03
资助金额:24.00
项目类别:面上项目