基于深度学习和主题模型的文本特征提取方法研究

基本信息
批准号:61373067
项目类别:面上项目
资助金额:77.00
负责人:裴志利
学科分类:
依托单位:内蒙古民族大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:周玉新,王庆虎,张昕红,姜明洋,廉洁,赵海燕,张红梅,宋琳琳,苏峰
关键词:
特征提取深度学习主题模型
结项摘要

Deep learning has been successfully applied to a variety of pattern classification problems, such as: speech recognition, image processing. However, there are few reports concern about text feature extraction. On the other hand, topic model has been widely used in text feature extraction. But most of these models did not consider contextual information and space structure of the text information. Therefore, the study of our project is as follows: 1. Construct deep learning model for text feature extraction and propose a new deep learning sparse network topology structure and learning algorithms for massive text features extraction; 2. Merge context and semantic relationships together into the topic model, construct semantic text feature extraction method based on topic model; 3. Construct deep learning feature extraction model on topic space, study the fast and effective integration strategy with the linear transformation from vector space model to topic space and deep learning non-linear transformation feature extraction procedure; 4. Construct feature extraction evaluation algorithm, make comparisons among the new proposed algorithms and classical algorithms and find out the scope for each algorithms and give out the recommendations for their further usage. 5. Construct text feature extraction platform based on the topic model and deep learning. The implementation of this project will promote the rapid development and application of the deep learning and the topic model, the study will provide new and efficient algorithms and models for text feature extraction.

近年来,深度学习已成功应用于多种模式分类问题并在语音识别,图像处理等方面取得了深远的影响。但在文本特征提取领域则罕见报道。另一方面,主题模型在文本特征提取方面取得广泛的应用。然而,却没有将文本的上下文信息和空间结构信息融合进来。因此,本项目研究内容如下:1.构建深度学习的文本特征提取模型,研究新的适用于海量文本特征提取的深度学习稀疏网络拓扑结构和学习算法;2.将上下文环境以及语义关系于主题模型相融合,构建语义主题模型的文本特征提取方法;3.构建主题空间深度学习特征提取模型,研究由向量空间模型到主题空间的线性变换与深度学习非线性特征提取流程的快速有效的融合; 4.构建特征提取评估算法,将新提出算法与经典算法进行比较分析,给出各种算法的适用范围和使用建议; 5.基于主题模型和深度学习的文本特征提取平台搭建。本项目的实施将推动深度学习和主题模型的快速发展和应用,为文本特征提取研究提供新的高效算法

项目摘要

本项目研究了深度学习在文本挖掘中的应用,重点研究了使用DBN深度学习方法实现对高维稀疏文本向量空间模型的降维,然后利用KNN或SVM分类算法对降维数据进行分类。提出一种解决大规模旅行商问题(TSP)的层次求解方法,把原大规模TSP问题转成化广义旅行商问题(GTSP),把求解大规模TSP问题转化为求解GTSP问题和几个小规模TSP问题。提出了一种基于多重离心机模型的特征选择方法,完成了基于多重离心机模型的特征选择方法研究。在原有的SAE算法中引用了一种新的激活函数ReLU,来代替传统的Sigmoid激活函数和Tanh激活函数,提出了基于ReLU激活函数的SAE算法的文本分类研究。针对深度自编码神经网络学习算法在形成特征表达的过程中会调节优化大量参数,从而使网络训练时间加长、BP算法陷入局部最小等问题,将逐层贪婪初始化思想(Layer-wise)引入到稀疏滤波的学习算法中,提出了基于深度稀疏滤波的文本分类算法。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

裴志利的其他基金

批准号:61163034
批准年份:2011
资助金额:49.00
项目类别:地区科学基金项目
批准号:61672301
批准年份:2016
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于弱监督和迁移学习的深度文本理解模型学习方法

批准号:61876144
批准年份:2018
负责人:管子玉
学科分类:F0606
资助金额:62.00
项目类别:面上项目
2

基于深度学习和迁移学习的非结构化临床文本挖掘的方法探索

批准号:81771937
批准年份:2017
负责人:雷健波
学科分类:H2806
资助金额:60.00
项目类别:面上项目
3

基于带有通配符序列模式和主题模型的短文本表示研究

批准号:61503116
批准年份:2015
负责人:谢飞
学科分类:F0606
资助金额:19.00
项目类别:青年科学基金项目
4

基于深度迁移学习的跨领域文本情感分类方法研究

批准号:61906110
批准年份:2019
负责人:赵传君
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目