Worldwide information revolution has lead us into the era of big data. The characteristics of big data, such as huge amount, variety types, low value density, difficult to mine, have been hindering our pace to derive the value in it.The topic model is on the rise in recent years, which is an efficient tool to discover hidden sematic from the massive amounts of data. Our project intends to carry out in-depth study of one particular type of them - sparse topic models, which can learn rich semantic feature in probability level, sample level and model level. First, we investigate the unsupervised and semi-supervised sparse topic model to study the deterministic feature of the data, which achieves the jump from probability level sparsity to sample level sparsity. Taking deterministic feature as ground work, we incorporate distance metric learning and learning-to-rank into sparse topic models, in a bid to learn sequence feature of the data, so as to achieve the leap from sample level sparsity to model level sparsity. In order to efficiently solving the proposed models in big data environment, the project will also study efficient inference method for sparse topic model. Finally, we will be apply proposed sparse topic models to a theme-based image classification and retrieval system and a multi-document automatic summarization based social news reader for portable mobile devices, in order to verify the model, both serve as the verifications of the proposed models and can also further promote the research of image retrieval and automatic summarization.
世界范围的信息变革将我们带入大数据时代,其数据体量巨大、类型繁多、价值密度低、挖掘难度大的特点阻碍了从中获取价值的步伐。近年来兴起的主题模型是从海量数据中发现隐含语义的有效工具,本项目针对主题模型的一种- - 稀疏主题模型进行深入的研究,从概率层面、样本层面和模型层面学习到大数据中稀疏的、富有语义的特征描述。首先,利用无监督和半监督稀疏主题模型学习判定性特征,实现概率层面稀疏到样本层面稀疏的跳跃;然后,以判定性稀疏特征为基础,将度量学习和排序学习与稀疏主题模型相结合,力图学习到唯一的序列特征,实现样本层面稀疏到模型层面稀疏的跃进;为了在大数据环境下高效求解所提出的模型,本项目还将研究稀疏主题模型的高效参数推断方法;最后,将所提的稀疏主题模型应用到基于主题的图像分类检索和基于多文档自动文摘的便携式移动设备社会化新闻阅读,以对模型加以验证,同时还可以进一步推动图像检索和自动文摘领域的研究。
图像和文本在数据表示上具有相同的本源,即词袋模型(Bag-of-word),但单词(或视觉单词)与图像或文本欲传达的语义之间尚存在较大差距。主题模型的出现为缩小底层单词与高层语义之间的差距提供了契机。本项目主要针对稀疏主题模型理论及其应用展开研究。在主题模型理论方面,主要进行了以下研究:查询无关排序主题模型和序列特征学习方法,进行了基于主题排序的论文推荐系统新奇性研究;判定性特征学习及主题稀疏化和过滤优化问题,利用成对词的同文档频率与成对词的词向量距离相结合,进而来准确判断主题语义一致性,过滤语义一致性较低的主题;采用基于熵和互信息的方法对主题词和主题模型进行优化。在主题模型的应用方面,主要进行了以下研究:基于稀疏主题模型的多文档摘要,从分析“单词”与“主题”之间的隐含关系入手,尝试了基于主题模型的语义相似性推理思路;在社交大数据演化性研究方面,提出一种多变量时序分类提升算法;根据微博数据自身特征结合短文本预处理方法,利用LDA获取训练集文本的主题模型,对用户的兴趣加以分析及聚类,以便于实现个性化推荐;基于主题的图像检索研究方面,针对视觉相似性度量问题,从视觉对象的布局特性着手,借鉴图匹配理论对图像的视觉主题描述子进行相似性计算,提出了基于自适应路径估计的路径流方法,同时利用弱监督信号辅助主题模型训练,以获得更好的视觉主题分布,并实现主题敏感性图像重排序;此外还进行了文本分类、目标检测以及图像自动标注等应用的研究。在本项目资助下,发表了29篇论文,其中SCI论文7篇,在AAAI会议中发表论文2篇;申请了2项国家发明专利,其中1项已经获得授权;毕业了2名博士生,8名硕士生,3名教师晋升为副教授。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
中国参与全球价值链的环境效应分析
大数据环境下基于视觉主题模型的视觉数据分类方法研究
排序主题模型及其应用研究
稀疏双语主题检索模型及算法研究
大维面板数据模型的相关理论及应用研究