面向移动终端的基于用户点击与深度神经网络的图像排序算法研究

基本信息
批准号:61602136
项目类别:青年科学基金项目
资助金额:20.00
负责人:谭敏
学科分类:
依托单位:杭州电子科技大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:赵伟华,张宇霆,高飞,张小威,黄迪,李茜,孙可嘉,郑光剑,李攀鹏
关键词:
用户点击情境计算深度卷积神经网络图像排序移动终端
结项摘要

Due to the limited screen size and bandwidth, users usually expect high ranking accuracy in image retrieval on mobile terminals. Traditional image ranking algorithms, which were based on hand-crafted textual and visual features, lack the ability to bright the gap between query text and the real intention of users. They barely take the contextual information (e.g. location, network condition, and user behavior) into account, either. To solve these problems, we propose to design a robust ranking algorithm from three perspectives: data processing, feature representation, and similarity metrics. Firstly, to deal with the great noise in the captured data in mobile image retrieval, a sparse-optimization-based model will be developed for data cleaning and sample selection; Secondly, with the help of user click data and contextual information, we will leverage the latest deep models to fuse visual and contextual features for representing an input query in the hope of capturing the user’s intention better. Finally, for the heterogeneous multi-source data, a multi-modal metric learning approach will be designed to learn a robust distance metric for the combined feature to improve the ranking accuracy. This project will result in an intention-aware image retrieval algorithm, which is expected to greatly improve the efficiency and accuracy of image retrieval on mobile terminals.

由于移动终端在屏幕、带宽等方面的局限性,移动互联网图像检索对精度要求高。然而,传统的基于文本或视觉特征的图像排序算法容易产生用户意图鸿沟,且往往忽略情境上下文信息(如位置、网络条件、用户行为等),从而达不到面向移动终端的图像排序的精度要求。本课题针对用户意图鸿沟,拟从样本、特征和度量三个方面研究面向移动终端的图像排序技术:首先,针对移动互联网中数据量大、噪声多的问题,拟构建基于稀疏优化的样本选择技术;其次,利用点击数据和情境上下文信息,结合面向排序的深度学习模型,将用户查询表征为深度视觉特征及多类情境特征的融合,从而有效地捕捉和表达用户意图;最后,针对特征的多源异构性,拟构建多模态排序度量学习模型,为融合特征学习鲁棒的距离度量空间,从而提高排序精度。本课题的研究将实现面能够“理解”用户意图的移动端图像检索,提高移动互联网图像 检索的高效性和准确性。

项目摘要

用户点击数据能克服图像理解中的用户意图鸿沟,帮助实现能够“理解”用户意图的图像分类/检索。然而,这种数据存在强噪声、高稀疏性的缺点,且现有的点击数据集也十分匮乏,这些都给基于用户点击特征的图像理解模型的学习带来了极大的困难!. 本项目针对基于用户点击的图像检索中几个关键问题开展探索和研究。我们从样本选择、特征学习、模型构建三方面入手,结合图像处理、自然语言处理、深度学习、多媒体分析技术,提出了一种基于自主样本选择和多模态特征融合的图像理解模型。首先,针对用户点击数据中的噪声样本,提出了基于质量评价模型和弱监督学习的高质量样本自主选择的方法;接着,在特征学习上,一方面研究了点击特征的构建方法及其在深度点击特征上的扩展,另一方面研究了能感知图像ROI区域的视觉特征模型;最后,我们利用多模态特征融合技术提出了深度视觉与点击特征融合的图像分类方法。此外,为了能将此方法用在更广泛的不含点击信息的图像数据集中,我们提出在有限的点击数据上学习视觉-点击嵌入模型,并利用深度迁移学习将该模型迁移到无点击信息的数据中进行点击预测,进而实现基于深度视觉与预测点击特征的图像理解。. 项目组在项目执行过程中,对点击数据清洗、多模态特征学习、分类/检索模型构建相关基础理论、算法、技术等获得了丰富的经验。目前已经在IEEE Trans. Image Processing、IEEE Trans. Pattern Analysis and Machine Intelligence、ACM Trans. Multimedia Computing, Communications, and Applications和International Conference on Computer Vision等国际权威期刊和会议上发表论文21篇(SCI检索论文12篇、EI检索论文7篇),其中CCF A/B类会议4篇,Trans系列或二区及以上SCI期刊10篇。公开了相关专利5项。公开了两个带点击信息的数据集供学术界使用,并已与部分企业合作开展了产学研合作。此外,一些实验和成果还在进行与总结中。接下来,将研究更多类型的用户反馈数据模型,并围绕多模态特征融合的图像重排序开展研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于图卷积网络的归纳式微博谣言检测新方法

基于图卷积网络的归纳式微博谣言检测新方法

DOI:10.3785/j.issn.1008-973x.2022.05.013
发表时间:2022

谭敏的其他基金

相似国自然基金

1

面向点击与视觉特征融合的结构化图像排序方法研究

批准号:61472110
批准年份:2014
负责人:俞俊
学科分类:F0210
资助金额:80.00
项目类别:面上项目
2

面向移动终端的高能效视频显示处理算法与VLSI架构

批准号:61774125
批准年份:2017
负责人:孙宏滨
学科分类:F0402
资助金额:67.00
项目类别:面上项目
3

面向移动终端的视频检索与浏览

批准号:61273034
批准年份:2012
负责人:王金桥
学科分类:F0604
资助金额:80.00
项目类别:面上项目
4

面向病理图像处理的深度学习算法研究

批准号:11701018
批准年份:2017
负责人:李宏锋
学科分类:A0505
资助金额:19.00
项目类别:青年科学基金项目