面向互联网开放数据的实体匹配及其应用研究

基本信息

批准号：61902001

项目类别：青年科学基金项目

资助金额：21.00

负责人：孔超

学科分类：

依托单位：安徽工程大学

批准年份：2019

结题年份：2022

起止时间：2020-01-01 - 2022-12-31

项目状态：已结题

项目参与者：

关键词：

实体匹配数据集成异构数据社交网络分析

结项摘要

Entity matching is a well-known and paramount problem that arises in many research fields, such as data management, information retrieval, machine learning, etc. It has been widely used in knowledge acquisition, user profiling and so on. Based on the advanced research of entity matching, in this project, we try to study several significant problems in entity matching, including privacy protection of user matching across social networks, fragmented data processing and scalable entity matching. Specifically, we try to (1) generate the anonymized social publishing graph based on differential privacy to design the node matching algorithm considering social structure feature only; (2) construct the entity matching model across multiple heterogeneous data sources based on probabilistic generative model; (3) study the semi-supervised user matching algorithm across heterogeneous social networks; (4) construct distributed entity matching framework to improve the scalability; (5) design and implement an entity matching based social network user matching and query prototype system (SumQ) to carry on the technical confirmation. The study of this project will contribute to theory and method of entity matching, and it is also expected to achieve practical application results, e.g. recommender systems, modeling and analysis of user behavior, etc.

实体匹配作为数据管理、信息检索、机器学习等多个研究领域的关键问题，已被广泛应用于知识获取、用户画像等领域。本项目基于实体匹配的最新研究进展，深入研究社交网络用户匹配中的隐私保护问题、探索碎片化数据的处理方法、寻求可扩展的实体匹配算法。具体地，本项目拟：（1）针对隐私安全问题，生成满足差分隐私的社交网络发布图，研究基于社交网络结构的节点匹配算法；（2）基于概率生成模型，设计多个异构数据源的实体匹配模型；（3）针对异构社交网络，研究半监督式的用户匹配算法；（4）构建分布式实体匹配框架，用于提高算法的扩展性；（5）设计和开发社交网络用户匹配和查询原型系统以进行技术验证。通过本项目的研究，不仅能对实体匹配的理论与方法有所贡献，还望能取得实际的应用成果，如：推荐系统、用户行为建模及预测等。

项目摘要

随着互联网应用的推广与深入，用户产生的数据呈现低质、异构、海量、相依等碎片化特征。如何准确地匹配这些碎片化数据，进一步实现这些碎片化数据的价值是一个重要的研究课题。本课题深入探索碎片化数据的处理方法、寻求可扩展的实体匹配算法、研究实体匹配中的数据隐私与安全问题。总体上，项目建立了分布式环境下面向互联网开放数据的实体匹配的一般框架。研究实现了以实体属性为节点的异构信息网络构建方法及两阶段分块算法；提出了深度实体匹配算法；研究了“端-云”联邦协同推理机制；考虑社交网络中的高阶隐式关系建模，实现了深度实体匹配原型系统，并在链路预测、社会化推荐等任务中成功应用，为相关研究提供理论、数据与平台上的支持。所提算法及模型经不同数据集的验证，能缓解碎片化数据的数据缺失、数据不完整等问题，提高链路预测、社会化推荐等下游任务的算法性能与效率，并一定程度在计算层和表示层上保证了数据隐私与安全，具有较大的自主创新，未来有望支撑Web数据集成、社会化推荐、用户行为建模及预测等应用的推广。立项以来累计录用发表SCI/EI/北大中文核心论文17篇，部分论文发表在数据挖掘领域的主流期刊会议中，如《Journal of Computer Science and Technology》、《软件学报》、ADMA 2020、ADMA 2022、UIC 2022等；累计申请专利3项，开源原型系统1项，培养硕士研究生4名、本科生5名，达到预期目标。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：10.16031/j.cnki.issn.1003-8035.2019.05.04

发表时间：2019

孔超的其他基金

相似国自然基金

面向开放域知识网络的实体语义关系抽取方法研究

批准号：61672057

批准年份：2016

负责人：冯岩松

学科分类：F0211

资助金额：62.00

项目类别：面上项目

面向智能互联网络的实体信任关系理论研究

批准号：71501058

批准年份：2015

负责人：范雯娟

学科分类：G0112

资助金额：17.40

项目类别：青年科学基金项目

面向数据演化的增量实体解析方法研究

批准号：71761008

批准年份：2017

负责人：高广尚

学科分类：G0112

资助金额：27.00

项目类别：地区科学基金项目

面向互联网同目标影像集的准稠密立体匹配

批准号：61601213

批准年份：2016

负责人：贾迪

学科分类：F0116

资助金额：21.00

项目类别：青年科学基金项目

面向互联网开放数据的实体匹配及其应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

“阶跃式”滑坡突变预测与核心因子提取的平衡集成树模型

孔超的其他基金

相似国自然基金