面向中文指称概念的知识获取方法研究

基本信息
批准号:61203284
项目类别:青年科学基金项目
资助金额:25.00
负责人:王石
学科分类:
依托单位:中国科学院计算技术研究所
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:刘磊,郑宇飞,曹馨宇,侯圣峦,刘超,吴日辉,黄宁宁,符建辉,乔冬春
关键词:
语义关系获取知识发现上下位知识获取本体学习指称概念分析
结项摘要

Knowledge contained within nominal concepts, which is great in quantity, is hard to be discovered using traditional corpus-based approaches because of their commonsense and high-compression properties. On the basis of obtained large-scale Chinese nominal concepts and hypernym knowledge base, this research focuses on the problem of mining semantic relations from nominal concepts, and aims at completing existed ontology. Firstly, semantic structure similarities of nominal concepts, which are measured mainly using large-scale hypernym base, are introduced to train classifies to detect given semantic relations from nominal concepts. In order to ensure the accuracy, error-driven automatically learned semantic rules are adopted for knowledge validating. Secondly, soft hierarchical clustering algorithms are used to discover undefined semantic relations. Lexico-syntactic patterns are automatically learned for these relations to discover their meta properties, in order to help us to define the relations and finally construct semantic relations categories. Finally, taking advantage of forming rule of Chinese nominal concepts, we use suffix frequency statistics to extract candidate hypernym relations from nominal concepts, and adopt semantic rules to validate them. Unaccepted metaphor nominal concepts are recognized based on metaphor words and context information. The proposed method is not restricted to certain concepts which obey specific syntactic types or contain fixed number of words, neither limited to special domains. In theory, this research can be helpful for the great challenge of natrual language deep semantic analysis. In practice, it can be combined to traditoinal corpus-based knowledge acquisition system to continuous enlarge and complete ontology iteratively, and construct semantic resources for many intelligent systems.

指称概念内部蕴含着丰富的知识,由于这些知识具有常识性和高压缩性,基于语料库的方法在获取时遇到了困难。本课题在已构建的大规模中文指称概念库和上下位知识库基础上,研究从指称概念内部获取语义关系的新方法,是对大规模知识库建设的有益补充。首先,结合上下位知识库和语料库度量概念间的语义结构相似性,监督学习指定类型的语义关系,并用语义规则进行知识验证。其次,采用软层次聚类方法,非监督学习指称概念内未指定类型的语义关系,并用词汇-句法模式方法自动分析其元性质,辅助人工关系命名并最终建立层次性的语义关系分类体系。最后,借助于中文指称概念的构词规律,利用后缀频率统计特征和语义验证规则,从指称概念中获取后缀型上下位关系,并基于隐喻词汇和语境特征识别和排除隐喻型上下位。在研究上,本课题可为自然语言深层语义分析这一难题提供思路。在应用中,本方法可结合面向语料库的知识获取系统,建设大规模知识库,为智能系统提供资源。

项目摘要

指称概念内部蕴含着丰富的知识,由于这些知识具有常识性和高压缩性,基于语料库的方法在获取时遇到了困难。本课题在已构建的大规模中文指称概念库和上下位知识库基础上,研究从指称概念内部获取知识的方法,是对大规模知识库建设的有益补充。.主要研究内容包括:(1)结合上下位知识库和语料库度量指称概念间的语义结构相似性,监督学习指定类型的语义关系,并用语义规则进行知识验证;(2)采用软层次聚类方法,非监督学习指称概念内未指定类型的语义关系,并用词汇-句法模式方法自动分析其元性质,辅助人工关系命名并最终建立层次性的语义关系分类体系;(3)借助于中文指称概念的构词规律,利用后缀频率统计特征和语义验证规则,从指称概念中获取后缀型上下位关系,并基于隐喻词汇和语境特征识别和排除隐喻型上下位。.重要结果包括:(1)完成了包括v+n,a+n,n+v,n+n等所有句法结构的二词指称概念语义分析,在总结出的83种语义关系上,基于词汇的语义特征进行有监督分类模型训练,最终达到p=0.99,r=0.83,F1=0.90的效果;(2)基于层次聚类方法,训练包含3、4、5、6个词的指称概念的所有语义嵌套结构,然后自顶向下分解为子概念,再进一步找到每个子概念的中心词,不断分解为二词概念83种语义关系分类问题,从而完成多多词指称概念的语义分析,最终达到p=0.91,r=0.81的效果,这个工作还未有相关研究,但优于语义类别更少的依存分析约86.4%的最好精度; (3)对隐喻性概念进行了研究,我们认为有效识别概念中的语义发生变化的词,即源喻词,是隐喻性概念自动发现的重点。我们以95个源喻词为基础,通过自动处理以这些源喻词结尾的100万个指称概念,最终迭代发现1043个源喻词。我们进一步判断在特定概念中源喻词的词义是否发生变化,从而达到排除隐喻识别的目的,最终隐喻型指称概念的识别精度达到85%。.自然语言的深层语义分析目前面临巨大的挑战,大规模知识库也被认为是智能系统的瓶颈。本课题通过对指称概念这一语言单位进行深层语义分析和理解,一方面可为句子级的自然语言深层语义分析这一难题提供方法和子模块,另一方面可结合面向语料库的知识获取系统,建设大规模知识库,为句子级别的分析提供宝贵资源。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

王石的其他基金

批准号:20901042
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:31802287
批准年份:2018
资助金额:24.00
项目类别:青年科学基金项目
批准号:51173082
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:10975086
批准年份:2009
资助金额:40.00
项目类别:面上项目
批准号:51804134
批准年份:2018
资助金额:25.00
项目类别:青年科学基金项目
批准号:21771110
批准年份:2017
资助金额:64.00
项目类别:面上项目
批准号:61703151
批准年份:2017
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

多概念格集成与知识获取方法研究

批准号:61202018
批准年份:2012
负责人:王俊红
学科分类:F0201
资助金额:23.00
项目类别:青年科学基金项目
2

基于概念格的属性约简与知识获取方法研究

批准号:60773174
批准年份:2007
负责人:米据生
学科分类:F0607
资助金额:29.00
项目类别:面上项目
3

三支面向对象(属性)概念格的知识获取理论研究

批准号:11801440
批准年份:2018
负责人:钱婷
学科分类:A0602
资助金额:20.00
项目类别:青年科学基金项目
4

面向中文的概念和上下位关系的验证方法研究

批准号:61105040
批准年份:2011
负责人:刘磊
学科分类:F0607
资助金额:24.00
项目类别:青年科学基金项目