面向Web文本的属性和属性值知识获取方法研究

基本信息
批准号:61272361
项目类别:面上项目
资助金额:80.00
负责人:张春霞
学科分类:
依托单位:北京理工大学
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:牛振东,商建云,陈威,刘振岩,彭学平,杨青,李学进,付红萍,梁峰
关键词:
属性Web信息抽取Web文本属性值
结项摘要

Automatic acquisition of attributes and their values of concepts and instances is one of the research frontiers in the fields of web content mining and information extraction. Knowledge of attributes and their values is a crucial component of ontology, a basis of building the Semantic Web, and a condition of realizing knowledge sharing and interoperability.This kind of knowledge has become a bottleneck of hindering the development of intelligent information processing techniques such as information retrieval,text classification and text clustering. Current works mainly focus on how to extract explicit attributes and their values from structural web pages and semi-structural web pages with item lists. Moreover,present methods are usually restricted by specific domains, concepts or attributes. To solve these problems, this project will systematically study theoretical models and core algorithms of acquiring attributes and their values from web texts. The research contents include:(1) constructing expressing models of attributes and their values in web texts;(2) building a multi-dimension classification framework of attributes and their values;(3) designing a domain adaptive approach to extracting and learning explicit and implicit attributes and their values;(4) devising a verification approach of knowledge about attributes and their values.To this end,a knowledge acquisition platform of concepts and their instances will be constructed to test and evaluate the proposed extracting,learning and verifying algorithms.

概念及其实例的属性和属性值知识获取是Web文本挖掘和信息抽取中的前沿性课题。属性和属性值知识是本体的核心组成部分,是构建语义Web的重要基础,也是实现知识共享和互操作的前提。属性和属性值知识获取已成为制约信息检索和文本分类等智能信息处理技术发展的瓶颈。现有的研究工作主要是从结构化网页、以列表型文本为主的半结构化网页中抽取显式类型的属性和属性值,相关方法往往受限于特定的领域、概念或属性。针对这些问题,本项目将系统地研究从Web文本中获取概念和概念实例的属性和属性值知识的理论模型和核心方法,具体包括:(1)属性和属性值知识在Web文本中的表达模型和方法;(2)属性和属性值的多维分类体系;(3)具有领域自适应性的显式和隐式的属性和属性值知识的抽取和学习方法;(4)属性和属性值知识的验证方法。在此基础上,开发一个概念和概念实例的知识获取平台,并在该平台上评估和分析提出的知识抽取、学习和验证的方法。

项目摘要

本项目的研究目的是从Web文本中获取概念和概念实例的属性和属性值知识,研究内容包括属性和属性值知识表示、抽取、学习和验证的模型和方法,并开发一个属性和属性值的知识获取平台。. 在属性和属性值知识表示和分类方面,构建了属性和属性值知识在文本中的表示模型。根据概念属性的属性值的特点,构建了概念属性的分类体系。根据概念属性的属性值之间的关系,构建了概念的属性关系的分类体系。在概念实例或实体的提取方面,提出了一种基于并置网络的弱监督的开放领域细粒度实体提取方法。. 针对给定目标属性的属性值抽取和学习问题,提出了一种集成式的具有领域自适应性的方法,该方法融合了多层模式、分类器和推理规则。针对旅游领域实体属性和属性值知识获取问题,构建了旅游领域知识图谱,研制了一种基于混合式的属性值学习方法和一种基于学习排序的属性值融合方法。针对文本特征提取和特征选择问题,提出了基于指导式的潜在狄立克雷分布参数估计和基于语义关联模型的特征提取方法,以及一种基于相对类别差异的特征选择方法。. 针对未给定目标属性的属性和属性值抽取和学习问题,提出了一种基于多粒度语义块的具有领域自适应性的属性和属性值抽取和学习策略、一种基于搜索引擎问答式的属性和属性值抽取策略。第二种策略从搜索引擎检索结果中抽取答案,由此转换和获取属性和属性值。其中,提出了一种自适应半监督超限学习算法进行问题分类,研制了一种基于热词和组合评分的实体类型答案抽取方法。针对倾向性属性值词汇构建问题,提出了一种基于约束标签传播的倾向性属性值词汇构建方法。针对事件时序属性知识抽取问题,设计了一种基于迟化理论的多文档事件时序摘要提取方法。. 在属性和属性值知识验证,即属性和属性值知识的不一致性和不完全性评估方面,提出了一种基于属性关系分类体系的知识验证方法。另外,开发了属性和属性值知识获取平台。概念和概念实例的属性和属性值知识可应用于信息检索、社会计算和网络舆情监控等领域。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
3

零样本学习综述

零样本学习综述

DOI:10.3778/j.issn.1002-8331.2106-0133
发表时间:2021
4

环境信息披露会影响分析师盈余预测吗?

环境信息披露会影响分析师盈余预测吗?

DOI:
发表时间:2017
5

不同pH值下锑(V)对大麦根伸长的毒性及其生物配体模型的构建

不同pH值下锑(V)对大麦根伸长的毒性及其生物配体模型的构建

DOI:10.7524/AJE.1673-5897.20200216001
发表时间:2020

张春霞的其他基金

批准号:71173039
批准年份:2011
资助金额:42.00
项目类别:面上项目
批准号:70773020
批准年份:2007
资助金额:20.00
项目类别:面上项目
批准号:11326061
批准年份:2013
资助金额:3.00
项目类别:数学天元基金项目
批准号:31500543
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:61672098
批准年份:2016
资助金额:16.00
项目类别:面上项目
批准号:60705022
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:70473014
批准年份:2004
资助金额:14.00
项目类别:面上项目
批准号:11201367
批准年份:2012
资助金额:22.00
项目类别:青年科学基金项目
批准号:11671317
批准年份:2016
资助金额:48.00
项目类别:面上项目
批准号:51234003
批准年份:2012
资助金额:300.00
项目类别:重点项目
批准号:30070611
批准年份:2000
资助金额:16.00
项目类别:面上项目
批准号:50074026
批准年份:2000
资助金额:18.00
项目类别:面上项目
批准号:11401475
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:41172159
批准年份:2011
资助金额:80.00
项目类别:面上项目
批准号:11126277
批准年份:2011
资助金额:3.00
项目类别:数学天元基金项目
批准号:40804014
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

面向Web文本的因果知识获取方法研究

批准号:61173063
批准年份:2011
负责人:曹存根
学科分类:F0607
资助金额:56.00
项目类别:面上项目
2

Web文本的作者身份和属性识别方法研究

批准号:61672098
批准年份:2016
负责人:张春霞
学科分类:F0607
资助金额:16.00
项目类别:面上项目
3

基于Web的概念实例及其属性值提取方法研究

批准号:61075067
批准年份:2010
负责人:穗志方
学科分类:F03
资助金额:37.00
项目类别:面上项目
4

基于概念格的属性约简与知识获取方法研究

批准号:60773174
批准年份:2007
负责人:米据生
学科分类:F0607
资助金额:29.00
项目类别:面上项目