Information network formed by associated entities is a very important representation form of data which exists in various real-world problems. Clustering of entities involved in the information network is a fundamental way for understanding the network’s underlying structure, and also a critical preparing step for further data processing. Nevertheless, heterogeneity increases the structural complexity of the information network and also the variety of ways for data understanding. This makes clustering analysis of such kind of data a challenging research topic. In this proposal, we target the problem of clustering all types of entities in the network simultaneously by studying from the data, the user and their integration with the clustering model. Specifically, we focus on the following research problems:(1)A hybrid pairwise and three-wise relation representation model that describes the heterogeneous information network with improved model capacity but maintain feasible complexity. (2) Methods and models of collaborative clustering of multi-typed entities in the network based on fuzzy clustering framework.(3)Incorporation of user into clustering by studying different forms of user guidance and their integration with the fuzzy clustering model. With these efforts, we aim to propose new methods of relational data clustering and user-guided clustering, and develop novel, effective and feasible clustering models and algorithms for heterogeneous relational data, which provide useful tools for analysis and understanding of heterogeneous information network.
相互关联的实体形成的信息网络是一种广泛存在的数据表示形式。对网络中的实体进行聚类是理解和分析信息网络内在结构的一个基本途径,也是进一步数据处理的关键准备步骤。然而异构性增加了信息网络结构的复杂性及理解方式的多面性,这使得面向该种数据的聚类分析成为一个挑战性研究课题。本项目以对异构信息网络中的不同类型实体同时聚类为目标,拟围绕数据、用户、以及这两者与聚类的统一结合来进行以下研究:(1)提出混合两维关系和三维关系的表示模型,旨在对异构信息网络进行准确描述的同时保持合适的模型复杂度;(2)结合模糊聚类理论,研究基于多个异构关系对不同类型实体协同聚类的方法和模型;(3)加入用户在聚类中的主动性,研究不同形式的用户引导及与聚类模型的有效结合。通过以上研究,拟创造新的关系型数据聚类理论和用户指导下的聚类方法,开发有效并切实可行的面向异构信息网络中实体的聚类算法,为异构信息网络分析提供重要技术支持。
在众多现实应用中,大到社交网络小到生物系统内部,都会涉及不同类型的相互关联着的实体。比如对科学文献进行聚类分析时需要考虑论文、作者、参考文献、发表的期刊等多种实体之间的关联。这些数据不再是简单的同类实体之间的某一种关系而是多种不同类型实体之间构成的复杂关联网络即异构信息网络。比起传统的同构信息网络,同时涉及多种类型的实体给学习异构信息网络的内在结构带来诸多挑战。.本项目以对异构信息网络中的不同类型实体同时聚类为目标,主要以文本数据表示的异构信息网络作为具体应用,从数据、用户、以及这两者与聚类的统一结合几个方面进行了以下研究:(1)结合模糊聚类理论,研究不同结构的异构信息网络中对不同类型实体协同聚类的方法和模型;(2)研究处理大规模文本数据的聚类方法和算法;(3)研究利用用户给出的辅助信息来提高聚类有效性问题,提出成对约束和子集分组这两种辅助信息类型与聚类模型的有效结合。.提出以下主要模型和方法:一、面向拓展星型结构异构信息网络的新型聚类方法CluEstar。该方法同时利用多种中心对象-特征对象之间的关系以及中心对象之间的关系进行聚类。对真实数据的实验仿真显示该方法在最短的时间内得出了排名靠前的表现,并同时得到用于描述和解释每个簇的代表性对象。二、融合三种主流可扩展框架的模糊联合聚类SeFCoC、SpFCoC、DeFCoC。这些方法不仅具有处理大规模数据的能力还保持对高维文本的良好有效性。三、子集分组辅助下模糊c均值(SubFCMq)。该方法以子集分组结果为辅助信息,比起现有的约束对聚类结果具有更强的表达和约束能力。实验结果证实,子集大小的小幅增加可以显著提高聚类性能。.本项目的研究创造了.新的异构信息网络实体聚类方法、面向大规模数据的聚类框架、以及新的半监督聚类方法,适应聚类理论发展方向以及实际应用需求。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于张量的异构信息网络演化聚类关键技术研究
积雪识别中的模糊聚类方法的研究
面向社会化媒体异构大数据的快速组合聚类研究
面向多源异构数据的多聚类通用模型及安全高效算法研究