Incremental Entity Resolution is a research highlight in big data at home and abroad in recent years. Applying it to achieve the near real time high quality entity resolution for time-evolving data in the big data environment must be an inevitable trend of the Entity Resolution technology. The development of Incremental Entity Resolution has strategic significance for our country to improve ability of real-time data integration, real-time data mining, and real-time intelligent analysis in big data environment. In this background, we will do researches on the methods of Approximately Duplicate Records clustering based on Key active learning, canonicalization of clusters constructing based on similarity-aware, and clustering structure heuristically adjusting based on canonicalization of clusters constraint in this project. Data evolution oriented incremental entity resolution method is presented, according to the complexity and rapidity of time-evolving data, the matching of similarity-aware mechanism, and the constraints of Similarity Join Queries, to overcome the unstable clustering results of Approximately Duplicate Records, the unremarkable constructing results of canonicalization of clusters, and the unideal adjusting results of clustering structure. A novel theory of heuristically adjusting in clustering structure based on canonicalization of clusters constraints is built, to promote the development and improvement of Chinese artificial intelligence, machine learning and data integration research field.
增量实体解析是近年来国内外大数据研究领域中备受关注的热点,应用它对大数据环境中的演化数据实现近乎实时的高质量解析是实体解析技术的发展趋势。发展增量实体解析对我国提高大数据环境下的实时数据集成、实时数据挖掘和实时智能分析的能力具有重要的战略意义。在这种需求背景下,本项目展开基于Key主动学习的相似重复记录聚类、基于相似性感知的聚簇代表构造、基于聚簇代表约束的聚簇结构启发式调整等方法研究。针对大数据环境中相似重复记录聚类效果不稳定、聚簇代表的构造效果不显著、聚簇结构调整效果不理想等实际问题,根据演化数据的复杂性与快速性、相似性感知机制的匹配性,以及相似性连接查询的约束性,提出了面向数据演化的增量实体解析方法。建立了基于聚簇代表约束的聚簇结构启发式调整的新理论,以推动我国在人工智能、机器学习和数据集成等研究领域的发展与完善。
随着互联网的快速普及与发展,数据产生和演化的速度将会更快,其中最难识别的数据演化就是:看似不相似的记录却表示同一实体,或者原本表示同一实体的记录却因某些属性值的变化而变得不太像同一实体。为此,需要一种能快速解析演化数据的增量实体解析方法,它不仅能将快速演化的数据快速划分到它本应所属的聚簇中,同时无损聚类质量,而且能利用演化数据中的新证据来修正之前聚类结果中存在的错误。.主要研究成果如下:(1)从无监督聚类角度分析实体解析过程的机制。无监督聚类技术不仅能很好地解决传统实体解析过程中存在的聚类效率和质量问题,而且还能利用已有的聚类结果对快速演化的数据进行增量解析,进而进一步满足大数据环境下亟需的增量解析需求;(2)探讨实体解析理论中经典的实体解析方法及逻辑思路。实体解析是数据质量管理的基本操作,也是发现数据价值的关键步骤;(3)探讨一种适应于大数据集的基于相似性传递的记录增量分组方法。提出的方法比传统方法更能提高分组质量,提升分组效率;(4)对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。提出的方法在静态数据上比传统方法更能提高生成质量,且在演化数据上具有良好的增量更新性能,最终保证提出的方法在演化数据环境下整体上的可行性和高效性。.在项目执行期间,发表了高水平学术论文7篇,其中EI收录1篇,培养了硕士研究生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
论大数据环境对情报学发展的影响
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于细粒度词表示的命名实体识别研究
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
面向大数据的实体解析方法及关键技术研究
面向结构演化的动态增量图计算性能优化方法研究
面向流式大数据检索的增量哈希学习方法研究
一种面向地理实体的兴趣数据建立方法研究