面向数据演化的增量实体解析方法研究

基本信息
批准号:71761008
项目类别:地区科学基金项目
资助金额:27.00
负责人:高广尚
学科分类:
依托单位:桂林理工大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:敬超,林震,曾雪雨,连漪,梁健爱,李超,崔洋洋
关键词:
增量实体解析相似重复记录数据演化数据挖掘大数据
结项摘要

Incremental Entity Resolution is a research highlight in big data at home and abroad in recent years. Applying it to achieve the near real time high quality entity resolution for time-evolving data in the big data environment must be an inevitable trend of the Entity Resolution technology. The development of Incremental Entity Resolution has strategic significance for our country to improve ability of real-time data integration, real-time data mining, and real-time intelligent analysis in big data environment. In this background, we will do researches on the methods of Approximately Duplicate Records clustering based on Key active learning, canonicalization of clusters constructing based on similarity-aware, and clustering structure heuristically adjusting based on canonicalization of clusters constraint in this project. Data evolution oriented incremental entity resolution method is presented, according to the complexity and rapidity of time-evolving data, the matching of similarity-aware mechanism, and the constraints of Similarity Join Queries, to overcome the unstable clustering results of Approximately Duplicate Records, the unremarkable constructing results of canonicalization of clusters, and the unideal adjusting results of clustering structure. A novel theory of heuristically adjusting in clustering structure based on canonicalization of clusters constraints is built, to promote the development and improvement of Chinese artificial intelligence, machine learning and data integration research field.

增量实体解析是近年来国内外大数据研究领域中备受关注的热点,应用它对大数据环境中的演化数据实现近乎实时的高质量解析是实体解析技术的发展趋势。发展增量实体解析对我国提高大数据环境下的实时数据集成、实时数据挖掘和实时智能分析的能力具有重要的战略意义。在这种需求背景下,本项目展开基于Key主动学习的相似重复记录聚类、基于相似性感知的聚簇代表构造、基于聚簇代表约束的聚簇结构启发式调整等方法研究。针对大数据环境中相似重复记录聚类效果不稳定、聚簇代表的构造效果不显著、聚簇结构调整效果不理想等实际问题,根据演化数据的复杂性与快速性、相似性感知机制的匹配性,以及相似性连接查询的约束性,提出了面向数据演化的增量实体解析方法。建立了基于聚簇代表约束的聚簇结构启发式调整的新理论,以推动我国在人工智能、机器学习和数据集成等研究领域的发展与完善。

项目摘要

随着互联网的快速普及与发展,数据产生和演化的速度将会更快,其中最难识别的数据演化就是:看似不相似的记录却表示同一实体,或者原本表示同一实体的记录却因某些属性值的变化而变得不太像同一实体。为此,需要一种能快速解析演化数据的增量实体解析方法,它不仅能将快速演化的数据快速划分到它本应所属的聚簇中,同时无损聚类质量,而且能利用演化数据中的新证据来修正之前聚类结果中存在的错误。.主要研究成果如下:(1)从无监督聚类角度分析实体解析过程的机制。无监督聚类技术不仅能很好地解决传统实体解析过程中存在的聚类效率和质量问题,而且还能利用已有的聚类结果对快速演化的数据进行增量解析,进而进一步满足大数据环境下亟需的增量解析需求;(2)探讨实体解析理论中经典的实体解析方法及逻辑思路。实体解析是数据质量管理的基本操作,也是发现数据价值的关键步骤;(3)探讨一种适应于大数据集的基于相似性传递的记录增量分组方法。提出的方法比传统方法更能提高分组质量,提升分组效率;(4)对如何在不断快速演化的数据集中构建出规范的代表性记录,以确保Web应用的前端、后端能对数据集进行高效的比较分析开展了研究。提出的方法在静态数据上比传统方法更能提高生成质量,且在演化数据上具有良好的增量更新性能,最终保证提出的方法在演化数据环境下整体上的可行性和高效性。.在项目执行期间,发表了高水平学术论文7篇,其中EI收录1篇,培养了硕士研究生3名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化

DOI:10.3799/dqkx.2020.083
发表时间:2020
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020

高广尚的其他基金

相似国自然基金

1

面向大数据的实体解析方法及关键技术研究

批准号:61402100
批准年份:2014
负责人:燕彩蓉
学科分类:F0202
资助金额:24.00
项目类别:青年科学基金项目
2

面向结构演化的动态增量图计算性能优化方法研究

批准号:61902194
批准年份:2019
负责人:刘强
学科分类:F0204
资助金额:29.00
项目类别:青年科学基金项目
3

面向流式大数据检索的增量哈希学习方法研究

批准号:61702394
批准年份:2017
负责人:王笛
学科分类:F0211
资助金额:26.00
项目类别:青年科学基金项目
4

一种面向地理实体的兴趣数据建立方法研究

批准号:41501446
批准年份:2015
负责人:季晓林
学科分类:D0114
资助金额:20.00
项目类别:青年科学基金项目