The release of RDF data from multi-sources is independent, self-governing with diversified forms and unlimited schemas, which lead to the problem of RDF data conflicts. This problem brings many challenges on extensive applications of RDF data. This project proposed a novel conflicting resolution method to fuse the RDF data from multi-sources by combining the interdependent relation between the reliability of RDF data sources and the credibility of RDF triples with considering time-varing properties of conflicting data. The problem of RDF data conflicts can be resolved with three stages: feature analysis of RDF data, model construction of conflicting resolution and incremental model optimization. The key issues to be addressed include: network topology analysis and time-varying property analysis of the RDF data, model construction of conflicting resolution and incremental optimization of the conflicting resolution model. Furthermore, a demonstration system for conflicting resolution on RDF data is developed for evaluating the effectiveness of the proposed methods by empirical experiments in an education environment..This project can help to enrich the theories and methods of data integration, providing theoretical and technical support for knowledge intensive applications, such as online data integration and knowledge graph construction. The proposed methods have great application prospects in digital library, biomedicine, traffic control and so on, which demand high quality of RDF data.
多源RDF数据因独立自治、形式多样、发布自由等特点,易造成RDF数据冲突问题,该问题对RDF数据的广泛应用提出了挑战。本项目以数据可信性与数据源可靠性相互依赖为切入点,并结合冲突数据的时变特性,设计针对多源时变RDF数据的冲突消解算法,提出“RDF数据特性分析—冲突消解模型构建—增量式模型优化”三阶段的冲突消解思路,实现海量RDF数据的一致性转化,包括量化分析RDF数据的网络拓扑特性及时变演化特性、RDF数据冲突消解模型构建及增量式冲突消解模型优化三项关键技术,并在此基础上研制多源RDF数据的冲突消解原型系统,并开展实证测试与验证。.本研究有助于丰富与完善数据集成方向的相关理论与方法,为在线数据集成、知识图谱构建等知识密集型应用提供理论与技术支撑,在数字图书馆、生物医学、交通控制等对RDF数据质量要求高的领域具有广阔应用前景。
本项目拟以互联网上开放RDF数据为对象,对数据冲突的消解方法展开研究,以应对多源RDF数据不一致问题及其对多源数据集成带来的挑战。.(1)提出了一种基于表示学习的多源关联数据联合抽取方法,该方法利用表示学习技术将关联数据中的实体和关系表示成低维稠密向量,从而有效解决关联数据抽取中遇到了实体和模式冲突问题。实验与分析表明,与其他方法相比,本研究所提的多数据源表示学习方法在实体共指消解和模式匹配两大任务上能够取得很好的效果。.(2)提出了一种基于信任发现的宾语冲突消解方法。针对关联数据源提供的宾语值数量服从无尺度分布的特点,本文采用两种策略来解决无尺度分布特性对宾语冲突消解带来的挑战:首先,利用数据源信任图拓扑特性,提出了数据源权威值先验计算算法BeliefRank;接着,通过 Source-Object 异质信息网络对数据源和宾语之间的相关关系进行建模;最后利用隐马尔科夫随机场和信念传播算法,对宾语可信值进行计算。实验与分析表明,本文所提的宾语冲突消解方法可以大幅度提高宾语冲突消解的精度,并能够有效缓解无尺度分布对宾语冲突消解的影响。.(3)研究基于深度卷积神经网络的问题质量预测模型。根据新问题的定义可知新问题没有社区特征,因此已有研究使用新问题的文本特征或提问者特征进行质量预测。不同于已有研究简单使用文本长度特征或主题特征等,本文基于深度卷积神经网络设计模型抽取问题标题和正文中的深度特征。同时,依据问题标题和正文长度和的差异,设计两类质量预测模型以考虑问题标题和正文在语义表达和包含信息量的差异。.取得的主要成果包括:在IEEE TNNLS、Neural Computation、DASFAA等国际期刊与会议上发表学术论文20余篇;申请8项国家发明专利,已授权5项;研制出RDF数据冲突消解原型系统及相关工具,构建了冲突消解数据集;培养6名硕博士。.本项目有助于数据集成、知识图谱构建等知识密集型应用,在数字图书馆、大数据知识工程等对RDF数据质量要求高的领域具有广阔应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
肉苁蓉种子质量评价及药材初加工研究
中外学术论文与期刊的宏观差距分析及改进建议
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
基于表示学习的RDF数据链接方法研究
基于图数据库理论的海量RDF数据存储和查询方法研究
面向多源数据的多粒度计算方法研究
基于多源实测数据的火焰建模方法研究