半监督进化文本聚类算法在动态多源文本分析上的研究

基本信息
批准号:61462011
项目类别:地区科学基金项目
资助金额:42.00
负责人:黄瑞章
学科分类:
依托单位:贵州大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:陈笑蓉,李晖,刘作国,罗红俊,王有华,王正丽,周萍
关键词:
文本挖掘数据挖掘文本聚类半监督文本聚类进化聚类
结项摘要

We aim to develop an innovative semi-supervised evolutionary document clustering approach to organize multiple correlated time-varying document collections. The semi-supervised evolutionary document clustering approach will be designed based on the dirichlet process (DP) model and will collaborate with an active learning model. We use the active learning model to collect informative supervised information which will be transformed into structured constraints to aid document clustering. The current document clustering partition, document clustering partitions for historical text data, and the multiple correlated document collection will be analyzed for generating supervised informtion. The semi-supervised document clustering approach, designed based on the DP model, will then be used to automatically organize multiple correlated time-varing document collections to arbitrary number of clusters. The active learning and the semi-supervised evolutionary document clusterng approach will collaborate and mutual promote in an iterative manner until a satisfied document clustering result is discovered. This project is extremely important for the research of the semi-supervised evolutionary document clustering problem. Two limitations of the current evolutionary document clustering problem will be handled: (1) the bias of assigning documents to relatively large document clusters for the DP approach; (2) the lack of the research on multiple correlated document collection. In particular, existing evolutionary document clustering approaches cannot due with multple correlated document collection and tends to group document points to relatively large clusters. From the application point of view, this project will provide a feasible solution for document analysis on real document articles collected from the Internet. We will develop a useful news and blog article analysis system to explore the application usage of the evoluationary document clustering.

本课题通过建立一个新型的半监督进化文本聚类方法,利用Dirichlet过程(Dirichlet Process,DP)模型,结合主动学习方法,实现动态多源文本数据的自动聚类划分。运用新型的主动学习方法提炼监督信息,有效表达当前聚类结果、历史聚类结果、以及多源文本数据的特性,并转化为结构化监督数据指导半监督文本聚类。运用DP模型,结合监督信息,有效划分动态多源文本数据到任意多个聚类中。结合主动学习与半监督进化文本聚类,使主动学习与半监督进化文本聚类方法互相促进,并有效更新监督信息,逐步逼近理想的聚类划分。本课题是对进化文本聚类算法的突破研究,解决现行进化文本聚类算法的两个缺陷:(1) 倾向于划分数据到大规模聚类组中;(2)缺乏针对多源数据的聚类分析。在文本分析的应用领域,本课题的预期成果将为实际的互联网文本分析提供解决方法,为包含新闻和微博数据在内的动态互联网数据的分析提供探索性研究。

项目摘要

本课题通过建立一个新型的进化文本聚类方法,利用Dirichlet过程(Dirichlet Process,DP)模型,实现动态多源文本数据的自动聚类划分。本课题是对进化文本聚类算法的突破研究,解决了现行进化文本聚类算法的两个缺陷:(1) 倾向于划分数据到大规模聚类组中;(2)缺乏针对多源数据的聚类分析。在文本分析的应用领域,本课题为实际的互联网文本分析提供解决方法。本课题针对单一数据源的文本聚类方法、多数据源的文本聚类方法和针对动态数据的进化文本聚类方法开展了深入的研究,共发表论文12篇,提交发明专利5项,同时有3篇论文已基本完成论文的主题内容,将于近期提交到SCI期刊。项目研究成果已被应用于贵州省委宣传部“多彩贵州宣传文化云”项目中,可针对包含新闻、微信公号、微博在内的多源数据,自动识别热点话题,解决不同来源的文本数据对话题描述方式不同的问题,实现话题演化的自动跟进。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

黄瑞章的其他基金

批准号:61202089
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

半监督文本聚类算法在个性化文本分析上的研究

批准号:61202089
批准年份:2012
负责人:黄瑞章
学科分类:F0201
资助金额:25.00
项目类别:青年科学基金项目
2

半监督文本情感分类方法研究

批准号:61003155
批准年份:2010
负责人:李寿山
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
3

基于最大公共子图的谱聚类算法在文本聚类中的应用研究

批准号:61363028
批准年份:2013
负责人:陈笑蓉
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
4

基于吸引子传播的半监督文本挖掘方法研究

批准号:61103092
批准年份:2011
负责人:管仁初
学科分类:F0607
资助金额:21.00
项目类别:青年科学基金项目