基于Web的概念实例及其属性值提取方法研究

基本信息

批准号：61075067

项目类别：面上项目

资助金额：37.00

负责人：穗志方

学科分类：

依托单位：北京大学

批准年份：2010

结题年份：2013

起止时间：2011-01-01 - 2013-12-31

项目状态：已结题

项目参与者：王雷,许京奕,贾玉祥,蒙新泛,康为,汪伟,王晨,王鑫

关键词：

概念实例提取自然语言处理Web知识提取实例属性值提取

结项摘要

本课题研究如何从Web中自动提取概念的实例及其属性值。在概念的实例提取研究中，基于内涵-外延之间的内在关联，提出了概念实例与属性的同步提取方法，通过概念实例与属性的相互评价，实现二者的同步互动提取；提出了基于关系图的候选实例评估方法，充分利用Web信息的冗余性实现候选概念实例的可信度评估。在实例属性值的提取研究中，提出了基于网络百科的属性值提取方法，实现有指导的属性值自动提取。为扩大属性值提取的覆盖范围，进一步提出基于"简单并列结构"的属性值提取方法和基于概念层级结构的属性值提取方法。本课题旨在寻求基于Web的更为准确的概念实例及其属性值的提取方法。在此过程中，探索如何利用Web的冗余性、半结构化、网络百科等特点及资源优势解决海量性、开放性、多源异构性带来的问题。其研究经验和研究成果一方面可直接应用于Web概念知识提取，也可为Web中其它知识的提取奠定基础。

项目摘要

本课题旨在寻求基于Web的更为准确的概念实例及其属性值的提取方法。在此过程中，探索如何利用Web的冗余性、半结构化、网络百科等特点及资源优势解决海量性、开放性、多源异构性带来的问题。具体研究内容分为：概念实例提取、概念实例的属性值提取与概念实例和属性的同步提取三部分。在概念实例提取研究中：1）提出并实现了基于网页中深度并列结构的概念实例提取方法，对网民们比较关注的概念，如“电影”、“歌曲”、“NBA”等，及一些购物网站提供的商品相关的概念，如笔记本品牌、汽车品牌、服装品牌等具有较好的提取效果；2）设计并实现了一种混合多特征的概念实例细分类方法，除了使用传统的特征外，还融入了词聚类特征、实例相关特征和类别特异性特征等三种新的特征。通过对比不用特征组合的实验，这种混合多特征的方法能够大大提高实例细分类的结果。在概念实例的属性值提取研究中：1）设计并实现了一种基于搜索引擎的属性值提取方法，从搜索引擎返回的网页摘要中提取属性值。与相关研究相比较体现了本项目算法的有效性；2）提出了一种基于结构化数据的概念属性提取方法，旨在将提取出的比较杂乱的属性进行规范化条理化，有利于更好地使用这些属性信息，并且还能够辅助属性值任务的提取；3）设计并实现了一种半指导的的产品属性词提取方法，在原有的自举方法中融入一个自学习的分类器。实验结果表明，本项目的方法能够较大地提高实验结果的准确率。在概念实例和属性的同步提取研究中：1）设计并实现了一种基于并列结构的概念实例和属性的同步提取方法，发现并提取具有并列结构的词语，实验结果表明，和单纯的同步提取方法相比，本项目的方法在不降低准确率的基础上，能大大提高提取结果的召回率；2）提出并实现了一种基于间接指导的关系提取算法，从实体对的识别、训练时负例的构造和特征空间的划分及引入整合的准确率等多个角度提高了间接指导的关系提取准确率。本项目在国内外学术期刊和学术会议发表论文20篇，以本项目研究成果为重要组成部分的成果获国家科技进步二等奖，并申请了国家技术发明专利和软件著作权。本项目的研究经验和研究成果一方面可直接应用于Web概念知识提取，也可为Web中其它知识的提取奠定基础。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.14050/j.cnki.1672-9250.2017.02.014

发表时间：2017

DOI：10.1007/s11192-020-03387-8

发表时间：2020

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

DOI：10.7507/1672-2531.202012076

发表时间：2021

DOI：

发表时间：2018

穗志方的其他基金

批准号：61772040

批准年份：2017

资助金额：60.00

项目类别：面上项目

批准号：60503071

批准年份：2005

资助金额：23.00

项目类别：青年科学基金项目

批准号：61375074

批准年份：2013

资助金额：79.00

项目类别：面上项目

批准号：60873156

批准年份：2008

资助金额：32.00

项目类别：面上项目

相似国自然基金

面向Web文本的属性和属性值知识获取方法研究

批准号：61272361

批准年份：2012

负责人：张春霞

学科分类：F0607

资助金额：80.00

项目类别：面上项目

基于概念格的属性约简与知识获取方法研究

批准号：60773174

批准年份：2007

负责人：米据生

学科分类：F0607

资助金额：29.00

项目类别：面上项目

基于机器学习方法感知非功能属性的Web服务选择研究

批准号：60773217

批准年份：2007

负责人：刘青

学科分类：F0202

资助金额：23.00

项目类别：面上项目

基于形式背景的概念格约简与规则提取方法研究

批准号：60703117

批准年份：2007

负责人：魏玲

学科分类：F0605

资助金额：19.00

项目类别：青年科学基金项目

基于Web的概念实例及其属性值提取方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于综合治理和水文模型的广西县域石漠化小流域区划研究

A tale of two databases: the use of Web of Science and Scopus in academic papers

基于直观图的三支概念获取及属性特征分析

口腔扁平苔藓研究热点前沿的可视化分析

相关系数SVD增强随机共振的单向阀故障诊断

穗志方的其他基金

基于隐含知识挖掘与时间敏感的知识图谱补全关键技术研究

汉语动词子语类框架的自动获取技术研究

文本语言表达到概念关系的映射方法研究与资源建设

基于结构化学习的语义角色标注方法研究

相似国自然基金