基于谱聚类的文本聚类集成方法研究

基本信息
批准号:60975042
项目类别:面上项目
资助金额:32.00
负责人:卢志茂
学科分类:
依托单位:哈尔滨工程大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:范冬梅,徐森,唐立群,刘柏森,程国斌,于洪霞,王连友,袁超越
关键词:
聚类集成谱聚类文本挖掘自然语言处理
结项摘要

聚类分析可以发现无结构文本集中的潜在概念,并用这些概念来给出文本集的概要或者标签,因此,它可以有效地组织和搜索大规模文本集。由于文本数据的高维稀疏性,很多聚类算法并不适用于文本聚类,另外,由于文本数据的海量性,对算法的计算复杂度也有很高要求。. 聚类集成技术可以有效克服高效的超球K均值算法的缺点,提高其精度和稳定性。然而现有的聚类集成技术都存在很多问题,如对簇的形状强加了某种结构、对簇的大小有很强的约束、计算复杂度高、得到局部最优解等。鉴于谱聚类算法的诸多优点,本课题将其引入到文本聚类集成问题中,采用"代数变换"、"间接求解"等策略来克服谱聚类算法计算复杂度过高的缺点,涉及高速、高质量文本聚类集成模型,为海量规模的数据挖掘提供实用处理技术。本课题的研究成果可以用于文本摘要、语义分析和信息检索等多个应用领域。因而,本课题的开展具有重要的理论意义和实际应用价值,具有广阔的应用前景。

项目摘要

本项目以文本聚类为应用背景,针对文本聚类集成中的关键问题进行了研究,取得的创新性研究成果包括:.(1)鉴于谱聚类方法的诸多优点,本项目将基于矩阵扰动理论和谱图理论的谱聚类算法引入到文本聚类集成问题中。针对谱聚类算法计算复杂度高的问题,本项目基于代数变换,首先将大规模矩阵的特征值分解问题转化为等价的奇异值分解问题,并进一步转化为小规模矩阵的特征值分解问题。由此设计了两个不同的文本聚类集成谱算法SMSA和TMSA。.(2)本项目研究了谱聚类算法的关键思想,从求解“最佳”子空间出发,同时推导出文本和超边的低维嵌入,由此设计了两个基于子空间相似度的聚类集成算法SSICA和SSDCA,实验结果表明:SSICA和SSDCA都获得了比基于图划分的聚类集成算法更优越的结果;SSICA的聚类质量略高于SSDCA。本项目进一步泛化SSICA,设计出基于低维嵌入的文本聚类集成方法。该方法首先通过不同的谱聚类算法获得了超边的低维嵌入;随后通过映射的复合间接获得了文本的低维嵌入;最后根据文本在低维空间下的坐标使用简单K均值算法聚类。.(3)本项目将非负矩阵分解(NMF)引入到文本聚类集成问题中,设计了BNMF算法;由于NMF算法收敛速度较慢、易于收敛到较差的局部最优解,本项目使用K均值初始化NMF,设计出NMFK算法;另外,针对K均值算法随机初始化所带来的聚类结果不稳定问题,本项目使用最小最大原则确定K均值算法的初值,设计出NMFKMMP算法。.(4)超球K均值算法不能有效识别非超球状的簇,因此易于产生精度较低的文本聚类集成成员。为了进一步提高文本聚类集成算法的聚类质量,本项目在集成成员生成阶段引入了CHAMELEON算法的关键思想——“分裂—合并”(DM)策略。。首先在聚类成员生成阶段运行使用DM策略的SKM算法r次,每次生成较多的文本子簇,并根据子簇的相似性使用Ward算法合并这些子簇,得到r个聚类成员,随后在聚类集成阶段采用本项目设计的聚类集成算法进行集成。. 实验结果表明,这些方法可以有效解决文本聚类集成问题。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020
3

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022
4

基于混合优化方法的大口径主镜设计

基于混合优化方法的大口径主镜设计

DOI:10.3788/AOS202040.2212001
发表时间:2020
5

三级硅基填料的构筑及其对牙科复合树脂性能的影响

三级硅基填料的构筑及其对牙科复合树脂性能的影响

DOI:10.11951/j.issn.1005-0299.20200093
发表时间:2020

卢志茂的其他基金

批准号:60603092
批准年份:2006
资助金额:27.00
项目类别:青年科学基金项目

相似国自然基金

1

基于最大公共子图的谱聚类算法在文本聚类中的应用研究

批准号:61363028
批准年份:2013
负责人:陈笑蓉
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
2

基于矩阵低秩近似的大规模文本聚类集成方法研究

批准号:61105057
批准年份:2011
负责人:徐森
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目
3

基于图论模型的文本重叠聚类研究

批准号:61202312
批准年份:2012
负责人:吴秦
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
4

高性能基于主题的文本聚类研究

批准号:60703058
批准年份:2007
负责人:赵颖
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目