Currently, more and more multi-modal cross-media (text, audio, image, video) appears, and there is a strong correlation between the different modes of informatio at a semantic level. Low-dimensional features of single-mode data can be extracted by deep learning method, but it is not applicable to extrac multi-modal data features. In this project, a number based on multi-modal data feature extraction depth of learning, that is, text and voice data in multi-modal data text and voice, key research for text and voice multi-modal data depth learning model proposed jointly as enter the system model using the depth model to obtain the relevant attributes and relationships multimodal data (ie, consistency multimodal expression data), and to achieve multi-modal data classification, clustering, retrieval and identification.
现阶段,多模态的跨媒体信息(文本、声音、图像、视频)越来越多,不同模态信息间在某个语义层次上存在较强的关联,人们获取多模态数据低维特征的需求越来强烈,而面向单模态数据的深度学习方法,能够提取单模态数据的低维特征,但并不适用于多模态数据特征的提取。本项目针对于文本和语音的多模态数据,重点研究适用于文本和语音多模态数据的深度学习模型,提出若干基于深度学习的多模态数据特征提取方法,即文本和语音数据共同作为系统模型的输入,利用深度模型获得多模态数据的相关属性及关联关系(即多模态数据的一致性表达),并实现对多模态数据的分类、聚类、检索和识别。
本项目中,主要研究了SDAE算法在中文短文本分类的特征提取方面的应用。AE算法采取无监督学习和有监督微调的方式,它使用了反向传播算法(Back Propagation),通过逐层训练,使输出值最大程度近似于输入值。SDAE是用多个DAE来构建深度神经网络模型,最顶层使用 Softmax 分类器。在训练过程中,输入一定是加入噪声的数据,微调时用原始数据对深度神经网络进行微调。栈式降噪自编码神经网络采用无监督逐层贪婪学习,通过干扰原始输入数据,从加入噪声的输入中学习得到更具鲁棒性的特征,经过实验证明本算法比其他几种经典算法具有更好的效果。但随着隐含层数、神经元个数以及稀疏程度的增加,现有的算法仍然不能避免进入局部极小值,以后的工作将会围绕此问题和参数调优等问题展开。.本项目研究了基于CNN的文本分类问题,构建了两种基于CNN的文本分类模型,并采用Reuters-21578数据集进行实验,实验结果表明构建的两种模型具有较好的分类性能。针对基于CNN的文本分类模型过拟合和训练耗时的问题,构建了基于稀疏Dropout卷积神经网络的文本分类模型(Sparse dropout constrained convolutional neural network,SDCNN),该模型在训练时,通过引入Dropout和L1范数防止模型过拟合,减少训练时间,提高文本分类的准确率。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于深度学习和迁移学习的非结构化临床文本挖掘的方法探索
基于深度学习的多源多模态城市大数据融合建模
基于深度学习的数据-文本生成技术研究
基于深度学习的乳腺癌分子生物信息的文本挖掘研究