The prevalence of data inconsistency among web cross-source entities has gravely affected the usability of web big data. However, mainly focusing on the structured data, the current research is lack of theory and method for data inconsistency in web cross-source. Our project would study both theoretically modeling and automatically discovering the data consistency among web cross-source entities to achieve efficient detection and annotation for web inconsistent data.In the theory part, we would establish unified relation representation of data on account of heterogeneity and diversity; construct four basic consistency schema for different inconsistency phenomena; build algebraic system to operate data consistency; definite conditional approximate consistent dependency in data for semantic logical consistency constraint based on conditional option, as well as generate and deduce consistency dependency via progression processing and transfer learning; thus constitute inference mechanism for data consistency determination.In the method part, we would propose discovery algorithms of local traversal and hierarchy evolution for inconsistent data under parallel computation framework, which is to satisfy efficiency and accuracy from local consistency to global consistency. Our research would support both the theory and technology for usability promotion and development of web big data.
多源异构的Web大数据中普遍存在着数据不一致问题,严重降低了数据的可用性。目前的研究主要针对结构化数据,缺乏Web跨源数据一致性研究的理论和方法。本项目拟从Web跨源实体数据一致性理论建模和不一致自动发现方法实现这两个方面展开研究,实现Web不一致数据的有效探测和标注。在理论部分将针对Web异构多样的特征,建立数据的统一关系表示;针对不一致现象构造四种基本的一致模式;建立数据一致运算的代数系统;定义数据间的条件近似一致依赖,实现基于条件选择的语义逻辑一致性约束,并通过递进处理和迁移学习来生成和推导一致依赖;以此构成判定数据一致性的推理机制,形成完备的Web数据一致性模型。在方法部分,提出并行计算框架下局部遍历和层次演化不一致数据的发现方法,从局部一致到全局一致进行演化以满足效率和精度的要求。本项目的研究将对提高Web大数据的可用性、促进Web大数据发展提供理论和技术支撑。
多源异构的Web大数据中普遍存在着数据不一致问题,严重降低了数据的可用性。目前的研究主要针对结构化数据,缺乏Web跨源数据一致性研究的理论和方法。本项目拟从Web跨源实体数据一致性理论建模和不一致自动发现方法实现这两个方面展开研究,实现Web不一致数据的有效探测和标注。在理论部分将针对Web异构多样的特征,建立数据的统一关系表示;针对不一致现象构造四种基本的一致模式;建立数据一致运算的代数系统;定义数据间的条件近似一致依赖,实现基于条件选择的语义逻辑一致性约束,并通过递进处理和迁移学习来生成和推导一致依赖;以此构成判定数据一致性的推理机制,形成完备的Web数据一致性模型。在方法部分,提出并行计算框架下局部遍历和层次演化不一致数据的发现方法,从局部一致到全局一致进行演化以满足效率和精度的要求。本项目的研究将对提高Web大数据的可用性、促进Web大数据发展提供理论和技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
Web数据挖掘与知识发现
面向市场情报的Web实体事件发现与踪迹分析研究
海量深网数据源入口的自动发现与集成研究
面向多维数据的自动导航和知识发现的理论与方法研究