基于弱指导机器学习技术的中文领域本体非分类关系自动学习研究

基本信息
批准号:61300120
项目类别:青年科学基金项目
资助金额:23.00
负责人:仇晶
学科分类:
依托单位:河北科技大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:张红斌,郝俊康,陈书旺,张光华,贾克,丁任霜,刘邵博,沈琳
关键词:
非分类关系关系标注信息抽取本体学习弱指导机器学习
结项摘要

With automatic construction process of Chinese domian ontology acts as the background, this project researches on the automatic learning non-taxonomic relationships. A new method of non-taxonomic relation recognition is proposed based on the combination of statistical analysis and dependency language models. Semantic information is added to the statistical model to improve the performance of the non-taxonomic relation recognition. A novel method of non-taxonomic relation labeling is proposed based on the shortest dependency path between two concepts.The nearest public parent node is found to help to determine the shortest path, and also help to captur the verbs which can be used to labeling the relaitonships effectively. A new method of extraction instances for non-taxonomic relation is proposed based on weakly-supervised machine learning algorithm. Suitable syntactic kernel functions are designed to finely express lexical syntax and semantic features. Bootstrapping algorithm is chosen to extract instances for non-taxonomic relation. The achievment in the research will be make a breakthrough in the technologies of Chinese domain ontology automatic learning; improve the degree of Chinese domain ontology automatic construction, and the adaptability and robustness of the ontology learning method; expand the application of ontology in Chinese market. Therefore, the project not only has important theoretical significance but also has very extensive application value.

以中文领域本体自动构建过程为背景,研究本体中非分类关系的自动学习问题。提出了一种基于统计分析和依存语言模型相结合的非分类关系识别方法,通过向统计模型中加入语义信息,研究并实现非分类关系的高性能识别。提出了一种基于最短依存路径的非分类关系标注方法,以概念间最近公共父节点为依据确定概念间最短依存路径,并捕获概念间中心动词,研究并实现非分类关系的有效标注。提出了一种基于弱指导机器学习算法的非分类关系实例化方法,通过选择合适的词汇、语法及语义特征,设计合理的句法核函数及组合核函数表示形式,以Bootstrapping算法作为弱指导机器学习方法,研究并实现非分类关系实例化。研究成果能够在中文领域本体学习技术等方面有所突破,对提高中文领域本体构建的自动化程度,增强中文领域本体学习方法的适应性和鲁棒性,扩大本体在中文范围内的应用有重要意义。

项目摘要

本体是语义网络的基石,近些年越来越多的研究工作都集中在本体学习和自动填充上。本体学习的目的是节省手工建立本体所耗费的大量人力、时间、资源,实现自动或半自动的构建本体。自然语言处理技术、机器学习方法、信息抽取方法和文本挖掘技术通常结合起来用于本体学习任务:概念抽取,分类关系抽取,非分类关系抽取。本体学习的数据集通常分为结构化数据、半结构化数据和非结构化数据。随着Web的快速发展,大量可用的富含丰富语义信息的数据都可从网络以文本文档的形式获取。从而使信息抽取技术可用很自然的用于本体学习研究,例如命名实体识别技术和关系抽取技术。.大部分的本体学习研究工作都集中在本体概念和分类关系的抽取。本项目提出了一种将依存句法信息和统计信息相结合的方法用于领域本体非分类关系的抽取与标注。首先,利用模板的方法抽取出概念实例;然后,在领域文档集上,将概念、概念实例一同作为系统输入用于非分类关系的抽取。实验发现,增加概念实例作为系统输入,可以提高非分类关系的抽取性能。对于非分类关系的标注,我们设计了8种类型的核心动词,通过加权合并最终得到特定非分类关系的核心动词序列,排序最高的K个动词作为最终的非分类关系标签。为了更好的研究本体学习的相关方法,项目组在研究非分类关系抽取的同时,还对领域本体概念、概念间分类关系的抽取做了相应的研究工作,提出了一种基于规则与统计相结合的混合式轻量级本体自动构建方法。.项目研究工作进展顺利,达到预期研究目标,为今后的研究工作奠定了基础。本项目面对非结构化文本数据,针对中文领域本体,结合信息抽取技术、机器学习技术、数据挖掘技术,实现本体学习各项子任务的自动完成,对增强中文领域本体学习方法的实用性,扩大本体在中文范围内的应用有重要意义。同时面对网络上日益增加的文本数据,本项目的研究成果也有着重要的理论价值和现实意义,具有较好的应用前景。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

一种改进的多目标正余弦优化算法

一种改进的多目标正余弦优化算法

DOI:
发表时间:2019

仇晶的其他基金

相似国自然基金

1

中文领域本体学习及半自动构建方法研究

批准号:71201032
批准年份:2012
负责人:于娟
学科分类:G0112
资助金额:19.00
项目类别:青年科学基金项目
2

基于主动学习的半监督领域本体自动构建

批准号:60903098
批准年份:2009
负责人:彭涛
学科分类:F0210
资助金额:17.00
项目类别:青年科学基金项目
3

基于深度学习等机器学习算法的星系光谱自动分类方法研究

批准号:11803055
批准年份:2018
负责人:陶一寒
学科分类:A1904
资助金额:28.00
项目类别:青年科学基金项目
4

基于弱监督学习的中文古籍识别方法研究

批准号:61573355
批准年份:2015
负责人:殷飞
学科分类:F0605
资助金额:67.00
项目类别:面上项目