There are a large number of Web data sources on Deep Web.These Web data sources have different data quality, which results in generating incomplete and inaccurate data.It leads the different descriptions for the same entity among different data sources to have a serious data conflict,which makes the accuracy and availability of integrated data difficult to be ensured. Therefore, data fusion for Deep Web is particularly important. This project is to study three key techniques for data consolidation: (1)research on duplicate record identification technology among large-scale data sources. We prepare to build domain-level duplicate record identification model to accommodate large-scale properties of Web data sources. (2)research on truth finding technology. We prepare to construct truth finding model which supports for dynamically adding new factors to improve the accuracy of truth finding. Meanwhile, researching on the effective inference methods is to improve the efficiency of truth finding.We are also to study the truth finding approach when the values of some field are all missing. (3)research on record normalization technology. We are to make the normal records meet the various needs of users to ensure its availability. Based on the above key techniques, we will develop a verifiable and displayable prototype system, and strive to make breakthroughs in the theory and technology to lay a solid foundation for future practical applications.
Deep Web拥有大量的Web数据源,这些数据源具有不同的数据质量,造成其可能提供不完整、不准确的数据,这使得不同数据源对同一实体的不同描述之间产生严重的数据冲突,难以保证集成数据的正确性和可用性,因此,Deep Web中的数据融合问题显得尤为重要。本项目拟研究数据融合的三个关键技术:(1)研究大规模数据源之间的重复记录识别技术,从领域角度构建重复记录识别模型,以适应Web数据源的大规模特性;(2)研究真值发现技术,构建支持新因素动态添加的真值发现模型,提高真值发现的准确性,同时,研究有效的推理方法,提高真值发现的效率;研究字段值缺失情况下的真值发现方法;(3)研究记录标准化技术,使得标准化的记录能满足用户多种需求,确保其可用性。在解决以上关键技术基础上,开发可验证、可展示的原型系统,力争在相关理论和技术上取得突破,为今后的实际应用奠定坚实基础。
Deep Web拥有大量的Web数据源,这些数据源具有不同的数据质量,造成其可能提供不完整、不准确的数据,难以充分发挥数据自身价值,因此,Deep Web中的数据融合问题显得尤为重要。本项目主要研究 Deep Web 数据集成中数据融合关键技术,首先对来自大量不同Web数据源的重复记录进行识别,然后在已识别的重复记录中进行真值发现,确定真实准确的重复记录集,在此基础上,根据用户需求进行标准化处理,最后为用户提供统一的标准记录。. 本项目主要研究成果包括:(1)针对重复记录识别问题,根据数据集的结构特点,将数据集分为文本数据集和结构化数据集,在文本数据集上提出一种多语义融合的重复记录识别方法,在结构化数据集上提出一种属性自注意力的重复记录识别方法,有效发现并识别两种类型数据集中的冗余记录。(2)针对真值发现问题,根据真值数量不同,分为单真值和多真值。针对单真值问题,根据数据集结构特征,分别在文本数据集上提出一基于种编码-解码网络和聚类的单真值发现方法,在结构化数据集上提出一种基于图注意力网络的单真值发现方法;针对多真值问题,提出一种基于属性融合的多真值发现方法。通过这些方法的提出,有效保证了数据的正确性;(3)针对记录标准化问题,根据用户需求不同,提出了记录标准化粒度(记录级、字段级和值分量级)与样式(典型性和完整性)概念,在此基础上,提出一种基于多策略计算标准化记录的综合框架,该框架既包括直接使用记录本身信息的简单策略,也包括利用模式挖掘技术的复杂策略,有效保证了数据的可用性。(4)设计并实现了Deep Web数据整合原型系统及一系列模拟实验,用以验证本项目关键技术研究成果的可行性和有效性。. 本项目共发表学术论文14篇(含在线出版2篇,录用1篇),其中SCI检索5篇,EI检索4篇,中文核心5篇,申请发明专利3项,培养硕士研究生4名(2名已毕业)。本项目通过探索Deep Web中的各种数据冲突,提出了一套有效完整的Deep Web数据整合解决方案,确保集成数据的正确性和可用性,为后续数据分析与挖掘提供可靠的数据支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
Deep Web数据集成查询结果抽取与整合关键技术研究
面向Deep Web的不完备知识处理的逻辑模型研究
面向Web数据集成的半结构化Web数据自适应抽取与整合问题研究
基于数据质量和覆盖估计的deep Web数据源排序研究