面向大规模动态短文本的快速聚类及演化分析技术研究

基本信息
批准号:61300114
项目类别:青年科学基金项目
资助金额:23.00
负责人:刘铭
学科分类:
依托单位:哈尔滨工业大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:刘秉权,胡玉秀,刘峰,王鑫,胡海峰,苏其龙,冯剑
关键词:
语义相似度信息演化分析动态聚类短文本快速聚类
结项摘要

Along with the fast advance of IT industry, the virtual communication platform, which forms based on social network, has gradually become an important implement for users to join in network discussion and to acquire knowledge. The massive dynamic short-texts contained by it cover plenty of information. Thus, how to cluster those massive data, and furthermore to explore useful information concerned by users from those data and to comprehend information evolutional trend, has already become a hot research domain. Unfortunately, two issues of "high-dimension and vector sparsity" and "semantic similarity" aroused by large-scale short-texts, prevent conventional clustering techniques designed for long-texts from turning to short-texts. Therefore, this application applies distributional word clustering to reduce dimension of vector space and utilizes iteratively calculating process to obtain semantic similarity between short-texts. Based on them, this application proposes a fast and dynamic clustering algorithm for large-scale short-texts, which is applied to acquire information evolutional trend in order to reflect the transfer of user's attention through different time phases. Moreover, grid structure is applied to measure the magnitude of its alteration, and labels are extracted to show the change of its content.

随着信息产业的飞速发展,以社会化网络为基础的虚拟交流平台逐渐成为用户参与网络讨论、获取信息的重要工具,而其中的海量动态短文本中蕴含了丰富的知识。因此,如何对这些海量的数据进行聚类分析,进而从这些数据中获取用户关注的信息、并掌握信息的演化过程逐渐成为研究的热点。然而由海量短文本数据引入的"高维向量稀疏"和"语义相似"问题,阻碍了传统的面向长文本的聚类分析技术在其上的应用,因此本项目拟通过分布式词聚类来降低特征空间的维度,拟通过迭代的相似度计算方法来获得短文本间的语义相似度。在此基础上,本项目拟借助实现面向大规模动态短文本的快速聚类来获取信息的演化过程,并依此反映用户的关注点在不同时间段内的整体变化趋势,进而以网格量化其变化幅度,以标签揭示其变化内容。

项目摘要

随着信息产业的飞速发展,以社会化网络为基础的虚拟交流平台逐渐成为用户参与网络讨论、获取信息的重要工具,而其中的海量动态短文本中蕴含了丰富的知识。因此,如何对这些海量的数据进行聚类分析,进而从这些数据中获取用户关注的信息、并掌握信息的演化过程逐渐成为研究的热点。本课题在实现面向大规模动态短文本的快速聚类的基础上,完成信息演化分析的原型系统。该系统可以很好的应对由海量短文本数据引入的“高维向量稀疏”和“语义相似”问题,所面向的数据源为社会化网络中的大规模动态短文本数据。实验结果显示:该系统以可视化的标签集合来揭示网络中不同信息的演化过程,并依此反映用户的关注点在不同时间段内的整体变化趋势,能够在几分钟内完成对千万篇规模的短文本数据的分析与处理工作,且保证分析准确率在80%以上。项目共发表论文14篇,申请专利2项,论文中,CCF A区论文3篇,CCF B区论文2篇,SCI 检索 6篇,EI 检索6篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

刘铭的其他基金

批准号:81370895
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:61772156
批准年份:2017
资助金额:62.00
项目类别:面上项目
批准号:61501022
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81570699
批准年份:2015
资助金额:58.00
项目类别:面上项目
批准号:81702400
批准年份:2017
资助金额:20.00
项目类别:青年科学基金项目
批准号:81070629
批准年份:2010
资助金额:35.00
项目类别:面上项目
批准号:81302220
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目
批准号:20506012
批准年份:2005
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

面向大规模XML文档集的文本分类与聚类技术研究

批准号:60875033
批准年份:2008
负责人:杨建武
学科分类:F0603
资助金额:24.00
项目类别:面上项目
2

半监督进化文本聚类算法在动态多源文本分析上的研究

批准号:61462011
批准年份:2014
负责人:黄瑞章
学科分类:F0201
资助金额:42.00
项目类别:地区科学基金项目
3

基于模型的文本聚类关键技术研究及应用

批准号:61802231
批准年份:2018
负责人:尹建华
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目
4

基于矩阵低秩近似的大规模文本聚类集成方法研究

批准号:61105057
批准年份:2011
负责人:徐森
学科分类:F0603
资助金额:22.00
项目类别:青年科学基金项目