Clustering analysis is one of the basic tools for information granulation and information compression for big data. Developing new theories and methods of clustering analysis for big data has important significance. One of the important features of big data is volume. It brings three challenges for clustering analysis, i.e., computability, effectiveness and efficiency. Based on the multi-granularity modeling strategy, the project will carry out large scale data clustering analysis research in-depth and systematically from sampling techniques, incremental learning and man-machine cooperation. Specifically, main contents of the project include: (1) Study the sampling strategy for large scale data, and develop multi-view ensemble clustering algorithms; (2) Analysis the relationship between data size and clustering results, and propose batch incremental clustering algorithms with a multi-granulation view; (3) Study the importance measure of information granule, and propose multi-scale active semi-supervised clustering algorithms; (4) Based on the micro-blog data, develop social recommendation system, and apply it to the Sina micro-blog recommendation. Aiming at key scientific issues of clustering analysis with large scale data, we will build a series of clustering models and propose some efficient algorithms. These research results have important theoretical significance and applicable value for big data analysis and mining.
聚类分析作为大数据信息粒化及信息压缩的一个基本工具,开展大数据聚类分析新理论与新方法具有重要的意义。本项目针对大数据规模的海量性特征对聚类分析任务提出的可计算性、有效性、高效性等挑战,将多粒度建模策略引入聚类分析中,从抽样技术、增量学习和人机协同等角度深入系统地开展聚类理论与方法方面的研究。具体包括:(1)研究面向样本海量和特征高维的大规模数据抽样策略,设计多视角集成聚类算法;(2)分析数据量与聚类结果质量需求之间的关系,设计多粒度视角下的批增量聚类算法;(3)研究信息粒重要性度量方法,提出多尺度主动半监督聚类算法;(4)以微博数据为载体,研制社会化推荐实验系统,并应用于新浪微博推荐中。本项目瞄准大规模数据聚类分析中的关键问题,系统地发展聚类新理论与新方法,研究成果将对大数据环境下的分析挖掘具有重要的理论意义与应用价值。
大数据呈现出样本规模的海量性、特征规模的高维性、特征表示的混合性、内在结构的复杂性等特点。无论从模型、算法还是应用层面,均给聚类分析提出了严峻挑战。项目围绕大规模复杂数据的聚类问题,重点在大规模数据聚类、集成聚类、复杂结构数据聚类以及社会化推荐等方面开展了研究。具体地:(1)在大规模数据聚类方面,提出了基于分层抽样的聚类算法框架;(2)在集成聚类方面,提出了分类型数据、混合数据、多视图数据的集成聚类算法;(3)在复杂结构数据聚类方面,提出了函数型数据、集值数据、蛋白质互作用网络数据的有效聚类算法;(4)在社会化推荐方面,针对冷启动和可扩展性问题,通过融合社交关系信息,提出了有效的社会化推荐算法。本项目取得的研究成果不仅丰富了聚类分析的研究内容,而且可为社会网络和生物信息学等领域中的数据分析提供技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
大规模数据聚类的并行进化算法骨架研究
面向大规模人脸标注的弱监督多视角谱聚类研究
大规模低质量多视图聚类算法及其应用研究
面向酿酒过程多模型软测量建模的多视角大规模模糊聚类方法研究