The recgonition and understanding of out of vocabulary (oov) words is a "bottleneck" problem in natrual language understanding and machine learning. The community made some achivements in semantic construction in past decades, but oov problem still stand which we believe is mainly caused by the shortage of such knowledge base with solid semantic construction rules. This project is aim to retrive such rules and apply to understand the oov words by employing data mining and machine learning technology. We will work on following problems:.(1).proofread and expand the "Chinese Semantic Construction Database", from which we generate training data..(2).abstract semantic construction rules using data mining technology. We will employ annotators to check the results to garanttee that the results are accurate..(3).test the semantic construction rules in verification experiment, from which the semantic construction dataset is generated..(4).apply the dataset in oov predictation and understanding..The achivements of this projects makes contribution in Chinese lexical semantics, enhances the theory research work in Chinese lexical semantics; secondly, it can be an important resources for computational linguistics, especially for natrual languge understianding and machine learning; finally, we believe the community of teaching Chinese as second language can also get benefits from our work.
在自然语言理解和机器翻译系统中,未登录词的识别和理解一直是难以突破的"瓶颈"问题,尽管学者们经过半个多世纪的努力在语义构词方面取得了一定的成果,但对于该问题的解决并没有取得突破性的进展,其中一个重要原因就是缺乏详尽可靠的语义构词规则。本课题的研究目标就是采用数据挖掘和机器学习技术,通过人机互动,总结语义构词规则并将它运用到未登录词的语义理解中。研究内容主要包括:(1)校对并扩充已建成的《汉语语义构词数据库》,并抽取一定的训练集;(2)利用数据挖掘技术提取语义构词规则,采用人工干预确保规则的准确性;(3)将这些规则运用到验证集中,通过反复调试得到最终的语义构词规则集;(4)将规则应用到未登录词的预测和理解。本课题的研究成果从理论上说可以推动汉语词汇语义学的发展,丰富和完善汉语词汇语义学理论;从实践上来看有利于推动计算语言学尤其是自然语言理解和机器翻译的进程,也有助于对外汉语教学实践。
本项目在进一步完善《汉字义类信息库》的基础上,通过对大规模语料库中复合词的语义类别进行语义标注,扩充并构建了《汉语新词语语义构词数据库》,然后应用数据挖掘和机器学习的方法从中学习和提取汉语语义构词规则,并对汉语复合词的语义类别及其构词模式进行预测分析,以服务于未登录词的识别、自然语言理解、自动释义和机器翻译。首先,在广泛收集1978年以来的新词语的基础上,采用梅家驹《同义词词林》中的义类分类体系,结合亢世勇主编的《汉字义类信息库》对收集的所有双音节新词语和三音节合成词单个字和词义进行了语义标注,在此基础上建立了《汉语新词语语义构词数据库》,其次,通过利用语言学的知识对上述的新词语构词模式进行详尽的研究和分析,重点是厘清语素义和词义之间的各种复杂关系。经过分析我们发现并系统总结了汉语双音节复合词的a+b=a=b,a+b=a,a+b=b,a+b=c,a+b=a+b,a+b=a+b+d, a+b=a+d,a+b=d+b等八种类型和三音节新词语的a+b+c=(a+b)+c,a+b+c=(a+b) +d,a+b+c=a+(b+c),a+(b+c)=d+(b+c),a+b+c=d+c,a+(b+c)=a+d,a+b+c=a+b+c,a+b+c=(a+c) +(b+c),a+b+c=d等九种类型,对这些模式进行了统计描述和分析。最后,采用数据挖掘和机器学习的方法,试图把语素义经过整合转化为词义的构词规律“教”给计算机,让计算机运用“学”到的语义构词规则和数学模型对未登录词的语义构词模式进行预测、识别和理解,以服务于中文信息处理和自然语言理解。.本项目研究成果共计发表23篇论文,其中SCI收录3篇,EI收录11篇,CSCD收录4篇,其他期刊和国际会议论文集收录3篇,2篇已经录用,正在出版中;出版相关学术著作(词典)4本。在本项目的资助下指导并培养了该领域的6名硕士研究生,其中5名顺利毕业,1名论文基本完成。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
结合分布相似和汉语构词特征的词义相似度计算
基于语义组合的开放域汉语复述研究
汉语语义知识获取与语义计算模型研究
汉语语义角色标注方法研究