Entity matching is a well-known and paramount problem that arises in many research fields, such as data management, information retrieval, machine learning, etc. It has been widely used in knowledge acquisition, user profiling and so on. Based on the advanced research of entity matching, in this project, we try to study several significant problems in entity matching, including privacy protection of user matching across social networks, fragmented data processing and scalable entity matching. Specifically, we try to (1) generate the anonymized social publishing graph based on differential privacy to design the node matching algorithm considering social structure feature only; (2) construct the entity matching model across multiple heterogeneous data sources based on probabilistic generative model; (3) study the semi-supervised user matching algorithm across heterogeneous social networks; (4) construct distributed entity matching framework to improve the scalability; (5) design and implement an entity matching based social network user matching and query prototype system (SumQ) to carry on the technical confirmation. The study of this project will contribute to theory and method of entity matching, and it is also expected to achieve practical application results, e.g. recommender systems, modeling and analysis of user behavior, etc.
实体匹配作为数据管理、信息检索、机器学习等多个研究领域的关键问题,已被广泛应用于知识获取、用户画像等领域。本项目基于实体匹配的最新研究进展,深入研究社交网络用户匹配中的隐私保护问题、探索碎片化数据的处理方法、寻求可扩展的实体匹配算法。具体地,本项目拟:(1)针对隐私安全问题,生成满足差分隐私的社交网络发布图,研究基于社交网络结构的节点匹配算法;(2)基于概率生成模型,设计多个异构数据源的实体匹配模型;(3)针对异构社交网络,研究半监督式的用户匹配算法;(4)构建分布式实体匹配框架,用于提高算法的扩展性;(5)设计和开发社交网络用户匹配和查询原型系统以进行技术验证。通过本项目的研究,不仅能对实体匹配的理论与方法有所贡献,还望能取得实际的应用成果,如:推荐系统、用户行为建模及预测等。
随着互联网应用的推广与深入,用户产生的数据呈现低质、异构、海量、相依等碎片化特征。如何准确地匹配这些碎片化数据,进一步实现这些碎片化数据的价值是一个重要的研究课题。本课题深入探索碎片化数据的处理方法、寻求可扩展的实体匹配算法、研究实体匹配中的数据隐私与安全问题。总体上,项目建立了分布式环境下面向互联网开放数据的实体匹配的一般框架。研究实现了以实体属性为节点的异构信息网络构建方法及两阶段分块算法;提出了深度实体匹配算法;研究了“端-云”联邦协同推理机制;考虑社交网络中的高阶隐式关系建模,实现了深度实体匹配原型系统,并在链路预测、社会化推荐等任务中成功应用,为相关研究提供理论、数据与平台上的支持。所提算法及模型经不同数据集的验证,能缓解碎片化数据的数据缺失、数据不完整等问题,提高链路预测、社会化推荐等下游任务的算法性能与效率,并一定程度在计算层和表示层上保证了数据隐私与安全,具有较大的自主创新,未来有望支撑Web数据集成、社会化推荐、用户行为建模及预测等应用的推广。立项以来累计录用发表SCI/EI/北大中文核心论文17篇,部分论文发表在数据挖掘领域的主流期刊会议中,如《Journal of Computer Science and Technology》、《软件学报》、ADMA 2020、ADMA 2022、UIC 2022等;累计申请专利3项,开源原型系统1项,培养硕士研究生4名、本科生5名,达到预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
面向云工作流安全的任务调度方法
城市轨道交通车站火灾情况下客流疏散能力评价
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
面向开放域知识网络的实体语义关系抽取方法研究
面向智能互联网络的实体信任关系理论研究
面向数据演化的增量实体解析方法研究
面向互联网同目标影像集的准稠密立体匹配