用聚类的方法分析处理海量的文本信息是数据挖掘、知识管理及信息抽取等领域中的重要问题。同时越来越多的应用要求聚类算法能结合已知的背景知识得到更符合用户需求的聚类结果。利用领域专家提供的先知信息来改善无监督聚类算法的性能已成为最近机器学习领域的一个研究方向。然而现有的半监督学习算法不能有效地利用领域专家提供的类模式层次上的先知信息(主题知识),也不能适用于海量文本信息的处理。我们研究的目的就是更有效地创建领域专家主题知识的模型,并设计出可利用该模型并应用到海量文本上的高性能半监督聚类算法。我们的研究重点放在划分式及凝聚式聚类方法,通过设计新的目标函数来来描述领域专家的知识与需求,并设计由主题知识引导下的特征选择技术来进一步改善算法的性能。研究成果可以运用到知识管理、信息抽取以及生物信息等领域。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
黄河流域水资源利用时空演变特征及驱动要素
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于信息融合的生物医学文本高性能聚类研究
基于谱聚类的文本聚类集成方法研究
基于图论模型的文本重叠聚类研究
基于语义的中文文本聚类研究