面向Deep Web的大规模知识库自动构建方法研究

基本信息
批准号:61170020
项目类别:面上项目
资助金额:57.00
负责人:崔志明
学科分类:
依托单位:苏州大学
批准年份:2011
结题年份:2015
起止时间:2012-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:赵朋朋,王金娥,王朝晖,鲜学丰,辛洁,和天旭,张广铭,郭建兵,陈明
关键词:
知识库构建Deep关系发现知识获取Web
结项摘要

知识库是语义Web、机器理解等技术的基础,如何利用Web中半结构化数据自动构建大规模全领域知识库是一个富有挑战性的课题。Deep Web具有结构性好、信息量大、质量高等特点,是一个合适的知识获取数据源,然而利用Deep Web自动构建知识库还鲜有研究。本项目拟基于海量的Deep Web数据,自动构建一个大规模全领域知识库。主要研究内容包括:①研究面向Deep Web的概念、实体、属性和关系抽取方法,丰富知识库的内容,扩展知识库的规模;②研究基于联合机器学习的关系发现方法,实现知识库中节点间关系的自动发现,完善知识库中的关系,提高知识库的质量;③研究采用混合逻辑推理的关系验证及不一致关系的消解策略,提高知识的可信度和可依赖性。本项目的研究为大规模知识库自动构建提供新的解决方案,为知识获取拓展新数据源,对促进Web智能应用的进一步发展具有重要意义。

项目摘要

Deep Web具有结构性好、信息量大、质量高等特点,是一个合适的知识获取数据源。本项目围绕面向Deep Web的概念、实体、属性和关系抽取,关系验证与不一致关系消解展开研究,将Deep Web数据转换为语义知识并构建知识库。针对目前数据集成中多源Deep Web数据抽取方法适应性差、对多类型数据抽取效率低的问题,提出了一种全新的基于Markov逻辑网的通用数据记录抽取模型,该模型利用了基于视觉树的自动实体抽取策略,摆脱了传统DOM树仅适用于单数据区域连续型数据的限制,实现对多数据区域非连续数据的抽取,该模型能够容忍实体属性的不完整性和矛盾性。针对Deep Web数据组成结构的特殊性,提出了基于LDA主题模型的Deep Web数据记录概念抽取方法,该方法充分考虑了数据记录中存在若干实体的事实,论证了实体分布信息对记录中的单词分布产生一定的影响,提出将实体分布融入到LDA主题模型中,可细化主题的分类,增加可区分性。针对多源知识的语义异构问题,提出了一种基于Markov逻辑网的异构知识语义映射方法,从全局考虑实体和实体关系的映射问题,利用实体类别和关系的内在联系,提高映射的准确性。针对从多个数据质量参差不齐的数据源获取的知识存在不一致性问题,提出了一种基于主动迁移学习的实体解析方法,有效的识别来自多个数据源的结果页面中重复实体。在本项目研究成果和研究所前期工作的基础上,设计并实现了两个面向Deep Web的知识获取与集成的平台系统,目前系统整体运行效果良好,有效的验证了本项目提出的面向Deep Web的知识获取与集成方法的有效性。在项目实施过程中申请发明专利20项,其中4项已获授权;获得软件著作权2项;在国内、外核心期刊和国际会议发表学术论文36篇,其中SCI、EI检索36篇;成果通过省级鉴定1项;获得苏州市自然科学优秀论文奖1项;培养了多名科研骨干人才,其中包括博士研究生3名、硕士研究生16名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

Vibration suppression of drilling tool system during deep-hole drilling process using independence mode space control

Vibration suppression of drilling tool system during deep-hole drilling process using independence mode space control

DOI:10.1016/j.ijmachtools.2020.103525
发表时间:2020
2

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

桂林岩溶石山青冈群落植物功能性状的种间和种内变异研究

DOI:10.5846/stxb202009292521
发表时间:2021
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
5

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

卡斯特“网络社会理论”对于人文地理学的知识贡献-基于中外引文内容的分析与对比

DOI:10.13249/j.cnki.sgs.2020.08.003
发表时间:2020

相似国自然基金

1

面向Deep Web的数据整合关键技术研究

批准号:61872168
批准年份:2018
负责人:董永权
学科分类:F0211
资助金额:62.00
项目类别:面上项目
2

Deep Web敏感聚合信息保护方法研究

批准号:61003054
批准年份:2010
负责人:赵朋朋
学科分类:F0202
资助金额:20.00
项目类别:青年科学基金项目
3

面向Deep Web的不完备知识处理的逻辑模型研究

批准号:60673092
批准年份:2006
负责人:崔志明
学科分类:F0607
资助金额:26.00
项目类别:面上项目
4

构建面向Web的、以实体为中心的知识库的关键技术研究

批准号:61272088
批准年份:2012
负责人:王建勇
学科分类:F0202
资助金额:80.00
项目类别:面上项目