文本挖掘的统计建模

基本信息
批准号:11571021
项目类别:面上项目
资助金额:45.00
负责人:贾金柱
学科分类:
依托单位:北京大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:李艳芳,苗旺,罗鹏,蒋智超
关键词:
社会网络文本挖掘变点主题模型数据流
结项摘要

Text data can be seen everywhere in our daily lives, such as news / comments, advertising information, complaint hotline text, shopping records in shopping malls / website and so on. Text data is a very rich and special data type. The main features of the text data include (1) ultra-high-dimensional (2) very sparse and (3) discrete. These features make the text data modeling and analysis very complex and challenging enough. Its analysis style is unique, and the development of text data analysis could promote the development of the statistical science. Michael Jordan, Fellow of the U.S. National Academy of Sciences, and his student David Blei proposed topic model that is currently very active in text analysis. The methods have been widely used in other fields such as image analysis. This project will be for deep discussion of text data, and try to develop and to improve the statistical modeling methods in text mining. The main contents include the following aspects: (1) establish topic models with topics varying over time and detetct when topics change; (2) establish a data stream clustering method and (3)merge the structure information between the words in a corpus into the Naive Bayes method to have a more effective Naïve Bayes text classification method。

文本数据在我们的日常生活中处处可见,如新闻报道/评论,广告信息,投诉热线文本,商场/网站购买纪录等等。文本数据是一个非常丰富而特殊的数据类型。文本数据的主要特点包括(1)超高维 (2)稀疏(3)离散数据等。这些特点使得对文本数据的建模分析足够复杂且具有挑战性。其分析方法独具一格,该数据分析方法的发展能够促进统计学科的发展。美国科学院院士 Michael Jordan 及其学生 David Blei提出的主题模型(topic model)目前在文本分析中非常活跃。其方法也被广泛的应用于图像分析中。本课题将针对文本数据的一些侧面进行深入的探讨,改进、发展和完善文本分析统计建模方法。主要研究内容包括以下几个方面:(1)建立随时间变化的主题模型并检测主题变点;(2)建立基于数据流的文本聚类方法; (3)将文本词语之间的结构信息融入Naïve Bayes 建立更有效的文本分类方法。

项目摘要

大数据研究是当前非常活跃的研究领域。文本大数据分析是大数据分析的一个重要研究方向。文本数据分析包含非常丰富的数据,对文本数据的建模分析过程往往可以提炼出许多理论问题。本项目对文本数据分析的一些侧面进行深入地探讨。改进、发展和完善了文本分析统计建模方法和理论。在对文本建模的过程中,发展了新型的文本模型、提炼出高维稀疏判别分析、高维稀疏泊松回归、高维稀疏负二项分布的方法和理论。取得了非常好的理论结果和非常具有竞争力的新方法。我们我们建立了随时间变化的主题模型并检测主题变点;使用优化方法,建立了聚类的多元联合 Poisson 模型,对文本进行聚类和分类分析,融入了词语间的结构信息;研究了线性判别分析方法和最小二乘的关系,然后利用稀疏最小二乘解决高维稀疏线性判别分析问题,并证明了该方法良好的统计性质。针对文本分析中广泛采用的泊松回归模型,我们提出了新的求解稀疏模型系数的新方法,并证明了新方法的优良统计特性,比较了该方法和传统方法之间的差异,模拟结果和实际数据分析都显示了我们方法的优越性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
4

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

贾金柱的其他基金

批准号:11101005
批准年份:2011
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

无指导汉语文本挖掘的统计模型和统计推断

批准号:11401338
批准年份:2014
负责人:邓柯
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
2

汉语文本数据挖掘的统计方法

批准号:10926186
批准年份:2009
负责人:郭建华
学科分类:A0402
资助金额:10.00
项目类别:数学天元基金项目
3

汉语文本数据挖掘的统计方法

批准号:10826110
批准年份:2008
负责人:郭建华
学科分类:A0403
资助金额:10.00
项目类别:数学天元基金项目
4

融合网络特征的文本观点挖掘

批准号:61170156
批准年份:2011
负责人:王挺
学科分类:F0211
资助金额:56.00
项目类别:面上项目