大数据环境下稀疏主题模型理论及其应用研究

基本信息

批准号：61370070

项目类别：面上项目

资助金额：75.00

负责人：王春立

学科分类：

依托单位：大连海事大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：邬俊,肖智博,尹清波,冯士刚,李浥东,武言博,吴镝,牛盼盼,赵晓军

关键词：

图像检索机器学习大数据稀疏主题模型多文档自动文摘

结项摘要

Worldwide information revolution has lead us into the era of big data. The characteristics of big data, such as huge amount, variety types, low value density, difficult to mine, have been hindering our pace to derive the value in it.The topic model is on the rise in recent years, which is an efficient tool to discover hidden sematic from the massive amounts of data. Our project intends to carry out in-depth study of one particular type of them - sparse topic models, which can learn rich semantic feature in probability level, sample level and model level. First, we investigate the unsupervised and semi-supervised sparse topic model to study the deterministic feature of the data, which achieves the jump from probability level sparsity to sample level sparsity. Taking deterministic feature as ground work, we incorporate distance metric learning and learning-to-rank into sparse topic models, in a bid to learn sequence feature of the data, so as to achieve the leap from sample level sparsity to model level sparsity. In order to efficiently solving the proposed models in big data environment, the project will also study efficient inference method for sparse topic model. Finally, we will be apply proposed sparse topic models to a theme-based image classification and retrieval system and a multi-document automatic summarization based social news reader for portable mobile devices, in order to verify the model, both serve as the verifications of the proposed models and can also further promote the research of image retrieval and automatic summarization.

世界范围的信息变革将我们带入大数据时代，其数据体量巨大、类型繁多、价值密度低、挖掘难度大的特点阻碍了从中获取价值的步伐。近年来兴起的主题模型是从海量数据中发现隐含语义的有效工具，本项目针对主题模型的一种- - 稀疏主题模型进行深入的研究，从概率层面、样本层面和模型层面学习到大数据中稀疏的、富有语义的特征描述。首先，利用无监督和半监督稀疏主题模型学习判定性特征，实现概率层面稀疏到样本层面稀疏的跳跃；然后，以判定性稀疏特征为基础，将度量学习和排序学习与稀疏主题模型相结合，力图学习到唯一的序列特征，实现样本层面稀疏到模型层面稀疏的跃进；为了在大数据环境下高效求解所提出的模型，本项目还将研究稀疏主题模型的高效参数推断方法；最后，将所提的稀疏主题模型应用到基于主题的图像分类检索和基于多文档自动文摘的便携式移动设备社会化新闻阅读，以对模型加以验证，同时还可以进一步推动图像检索和自动文摘领域的研究。

项目摘要

图像和文本在数据表示上具有相同的本源，即词袋模型（Bag-of-word），但单词（或视觉单词）与图像或文本欲传达的语义之间尚存在较大差距。主题模型的出现为缩小底层单词与高层语义之间的差距提供了契机。本项目主要针对稀疏主题模型理论及其应用展开研究。在主题模型理论方面，主要进行了以下研究：查询无关排序主题模型和序列特征学习方法，进行了基于主题排序的论文推荐系统新奇性研究；判定性特征学习及主题稀疏化和过滤优化问题，利用成对词的同文档频率与成对词的词向量距离相结合，进而来准确判断主题语义一致性，过滤语义一致性较低的主题；采用基于熵和互信息的方法对主题词和主题模型进行优化。在主题模型的应用方面，主要进行了以下研究：基于稀疏主题模型的多文档摘要，从分析“单词”与“主题”之间的隐含关系入手，尝试了基于主题模型的语义相似性推理思路；在社交大数据演化性研究方面，提出一种多变量时序分类提升算法；根据微博数据自身特征结合短文本预处理方法，利用LDA获取训练集文本的主题模型，对用户的兴趣加以分析及聚类，以便于实现个性化推荐；基于主题的图像检索研究方面，针对视觉相似性度量问题，从视觉对象的布局特性着手，借鉴图匹配理论对图像的视觉主题描述子进行相似性计算，提出了基于自适应路径估计的路径流方法，同时利用弱监督信号辅助主题模型训练，以获得更好的视觉主题分布，并实现主题敏感性图像重排序；此外还进行了文本分类、目标检测以及图像自动标注等应用的研究。在本项目资助下，发表了29篇论文，其中SCI论文7篇，在AAAI会议中发表论文2篇；申请了2项国家发明专利，其中1项已经获得授权；毕业了2名博士生，8名硕士生，3名教师晋升为副教授。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

王春立的其他基金

批准号：60973067

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：60603023

批准年份：2006

资助金额：26.00

项目类别：青年科学基金项目

相似国自然基金

大数据环境下基于视觉主题模型的视觉数据分类方法研究

批准号：61370092

批准年份：2013

负责人：熊曾刚

学科分类：F0202

资助金额：76.00

项目类别：面上项目

排序主题模型及其应用研究

批准号：61272369

批准年份：2012

负责人：鲁明羽

学科分类：F0607

资助金额：80.00

项目类别：面上项目

稀疏双语主题检索模型及算法研究

批准号：61562031

批准年份：2015

负责人：罗远胜

学科分类：F0211

资助金额：38.00

项目类别：地区科学基金项目

大维面板数据模型的相关理论及应用研究

批准号：70601001

批准年份：2006

负责人：金赛男

学科分类：G0105

资助金额：18.00

项目类别：青年科学基金项目

大数据环境下稀疏主题模型理论及其应用研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

针对弱边缘信息的左心室图像分割算法

一种基于多层设计空间缩减策略的近似高维优化方法

基于多色集合理论的医院异常工作流处理建模

基于改进LinkNet的寒旱区遥感图像河流识别方法

王春立的其他基金

多通道手语信息融合问题的研究

手语识别中自适应问题的研究

相似国自然基金