本课题研究如何从Web中自动提取概念的实例及其属性值。在概念的实例提取研究中,基于内涵-外延之间的内在关联,提出了概念实例与属性的同步提取方法,通过概念实例与属性的相互评价,实现二者的同步互动提取;提出了基于关系图的候选实例评估方法,充分利用Web信息的冗余性实现候选概念实例的可信度评估。在实例属性值的提取研究中,提出了基于网络百科的属性值提取方法,实现有指导的属性值自动提取。为扩大属性值提取的覆盖范围,进一步提出基于"简单并列结构"的属性值提取方法和基于概念层级结构的属性值提取方法。本课题旨在寻求基于Web的更为准确的概念实例及其属性值的提取方法。在此过程中,探索如何利用Web的冗余性、半结构化、网络百科等特点及资源优势解决海量性、开放性、多源异构性带来的问题。其研究经验和研究成果一方面可直接应用于Web概念知识提取,也可为Web中其它知识的提取奠定基础。
本课题旨在寻求基于Web的更为准确的概念实例及其属性值的提取方法。在此过程中,探索如何利用Web的冗余性、半结构化、网络百科等特点及资源优势解决海量性、开放性、多源异构性带来的问题。具体研究内容分为:概念实例提取、概念实例的属性值提取与概念实例和属性的同步提取三部分。在概念实例提取研究中:1)提出并实现了基于网页中深度并列结构的概念实例提取方法,对网民们比较关注的概念,如“电影”、“歌曲”、“NBA”等,及一些购物网站提供的商品相关的概念,如笔记本品牌、汽车品牌、服装品牌等具有较好的提取效果;2)设计并实现了一种混合多特征的概念实例细分类方法,除了使用传统的特征外,还融入了词聚类特征、实例相关特征和类别特异性特征等三种新的特征。通过对比不用特征组合的实验,这种混合多特征的方法能够大大提高实例细分类的结果。在概念实例的属性值提取研究中:1)设计并实现了一种基于搜索引擎的属性值提取方法,从搜索引擎返回的网页摘要中提取属性值。与相关研究相比较体现了本项目算法的有效性;2)提出了一种基于结构化数据的概念属性提取方法,旨在将提取出的比较杂乱的属性进行规范化条理化,有利于更好地使用这些属性信息,并且还能够辅助属性值任务的提取;3)设计并实现了一种半指导的的产品属性词提取方法,在原有的自举方法中融入一个自学习的分类器。实验结果表明,本项目的方法能够较大地提高实验结果的准确率。在概念实例和属性的同步提取研究中:1)设计并实现了一种基于并列结构的概念实例和属性的同步提取方法,发现并提取具有并列结构的词语,实验结果表明,和单纯的同步提取方法相比,本项目的方法在不降低准确率的基础上,能大大提高提取结果的召回率;2)提出并实现了一种基于间接指导的关系提取算法,从实体对的识别、训练时负例的构造和特征空间的划分及引入整合的准确率等多个角度提高了间接指导的关系提取准确率。本项目在国内外学术期刊和学术会议发表论文20篇,以本项目研究成果为重要组成部分的成果获国家科技进步二等奖,并申请了国家技术发明专利和软件著作权。本项目的研究经验和研究成果一方面可直接应用于Web概念知识提取,也可为Web中其它知识的提取奠定基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
服务经济时代新动能将由技术和服务共同驱动
响应面法优化藤茶总黄酮的提取工艺
中外学术论文与期刊的宏观差距分析及改进建议
面向Web文本的属性和属性值知识获取方法研究
基于概念格的属性约简与知识获取方法研究
基于机器学习方法感知非功能属性的Web服务选择研究
基于形式背景的概念格约简与规则提取方法研究