面向异构信息网络中实体归类的模糊聚类

基本信息

批准号：61502420

项目类别：青年科学基金项目

资助金额：20.00

负责人：梅建萍

学科分类：

依托单位：浙江工业大学

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：曹斌,杨良怀,孙立,罗锋,祝维豪,陈徐豪

关键词：

异构信息网络聚类方法机器学习与数据挖掘关系型数据聚类

结项摘要

Information network formed by associated entities is a very important representation form of data which exists in various real-world problems. Clustering of entities involved in the information network is a fundamental way for understanding the network’s underlying structure, and also a critical preparing step for further data processing. Nevertheless, heterogeneity increases the structural complexity of the information network and also the variety of ways for data understanding. This makes clustering analysis of such kind of data a challenging research topic. In this proposal, we target the problem of clustering all types of entities in the network simultaneously by studying from the data, the user and their integration with the clustering model. Specifically, we focus on the following research problems:(1)A hybrid pairwise and three-wise relation representation model that describes the heterogeneous information network with improved model capacity but maintain feasible complexity. (2) Methods and models of collaborative clustering of multi-typed entities in the network based on fuzzy clustering framework.(3)Incorporation of user into clustering by studying different forms of user guidance and their integration with the fuzzy clustering model. With these efforts, we aim to propose new methods of relational data clustering and user-guided clustering, and develop novel, effective and feasible clustering models and algorithms for heterogeneous relational data, which provide useful tools for analysis and understanding of heterogeneous information network.

相互关联的实体形成的信息网络是一种广泛存在的数据表示形式。对网络中的实体进行聚类是理解和分析信息网络内在结构的一个基本途径，也是进一步数据处理的关键准备步骤。然而异构性增加了信息网络结构的复杂性及理解方式的多面性，这使得面向该种数据的聚类分析成为一个挑战性研究课题。本项目以对异构信息网络中的不同类型实体同时聚类为目标，拟围绕数据、用户、以及这两者与聚类的统一结合来进行以下研究：（1）提出混合两维关系和三维关系的表示模型，旨在对异构信息网络进行准确描述的同时保持合适的模型复杂度；（2）结合模糊聚类理论，研究基于多个异构关系对不同类型实体协同聚类的方法和模型；（3）加入用户在聚类中的主动性，研究不同形式的用户引导及与聚类模型的有效结合。通过以上研究，拟创造新的关系型数据聚类理论和用户指导下的聚类方法，开发有效并切实可行的面向异构信息网络中实体的聚类算法，为异构信息网络分析提供重要技术支持。

项目摘要

在众多现实应用中，大到社交网络小到生物系统内部，都会涉及不同类型的相互关联着的实体。比如对科学文献进行聚类分析时需要考虑论文、作者、参考文献、发表的期刊等多种实体之间的关联。这些数据不再是简单的同类实体之间的某一种关系而是多种不同类型实体之间构成的复杂关联网络即异构信息网络。比起传统的同构信息网络，同时涉及多种类型的实体给学习异构信息网络的内在结构带来诸多挑战。.本项目以对异构信息网络中的不同类型实体同时聚类为目标，主要以文本数据表示的异构信息网络作为具体应用，从数据、用户、以及这两者与聚类的统一结合几个方面进行了以下研究：（1）结合模糊聚类理论，研究不同结构的异构信息网络中对不同类型实体协同聚类的方法和模型；（2）研究处理大规模文本数据的聚类方法和算法；（3）研究利用用户给出的辅助信息来提高聚类有效性问题，提出成对约束和子集分组这两种辅助信息类型与聚类模型的有效结合。.提出以下主要模型和方法：一、面向拓展星型结构异构信息网络的新型聚类方法CluEstar。该方法同时利用多种中心对象-特征对象之间的关系以及中心对象之间的关系进行聚类。对真实数据的实验仿真显示该方法在最短的时间内得出了排名靠前的表现，并同时得到用于描述和解释每个簇的代表性对象。二、融合三种主流可扩展框架的模糊联合聚类SeFCoC、SpFCoC、DeFCoC。这些方法不仅具有处理大规模数据的能力还保持对高维文本的良好有效性。三、子集分组辅助下模糊c均值(SubFCMq)。该方法以子集分组结果为辅助信息，比起现有的约束对聚类结果具有更强的表达和约束能力。实验结果证实，子集大小的小幅增加可以显著提高聚类性能。.本项目的研究创造了.新的异构信息网络实体聚类方法、面向大规模数据的聚类框架、以及新的半监督聚类方法，适应聚类理论发展方向以及实际应用需求。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.1360/SSM-2020-0035

发表时间：2020

梅建萍的其他基金

相似国自然基金

基于张量的异构信息网络演化聚类关键技术研究

批准号：61562027

批准年份：2015

负责人：黄晓辉

学科分类：F0205

资助金额：38.00

项目类别：地区科学基金项目

积雪识别中的模糊聚类方法的研究

批准号：48970051

批准年份：1989

负责人：刘政凯

学科分类：D0113

资助金额：4.00

项目类别：面上项目

面向社会化媒体异构大数据的快速组合聚类研究

批准号：71471009

批准年份：2014

负责人：李红

学科分类：G0112

资助金额：60.00

项目类别：面上项目

面向多源异构数据的多聚类通用模型及安全高效算法研究

批准号：61802112

批准年份：2018

负责人：赵雅靓

学科分类：F0214

资助金额：24.00

项目类别：青年科学基金项目

面向异构信息网络中实体归类的模糊聚类

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

新型树启发式搜索算法的机器人路径规划

智能煤矿建设路线与工程实践

现代优化理论与应用

梅建萍的其他基金

相似国自然基金