Visual understanding is one of the popular research fields in the past decade. With the explosive growth of multimedia data and the invention of deep learning technologies, it brings strong demands for new practical applications, as well as supporting techniques and theories. Among these applications and techniques, how to integrate natural language processing into visual understanding is a key research topic, which remains largely unsolved. Its implementation will provide the consumers with a natural way to understand and interact with the visual data, and will build the technical foundation for the next-generation multimedia analysis. In this project, we are focusing on three research tasks: 1) to propose a general deep neural framework to effectively and efficiently extract useful representations from large scale visual or text data; 2) to integrate natural language processing techniques to enhance large scale visual understanding and visual captioning; 3) to combine visual understanding, object detection and deep learning techniques to enhance Visual Question Answering.
视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。
视觉理解一直是计算机应用领域的研究热点之一。图像视频是视觉数据的主要载体,其爆炸式增长以及深度学习的不断发展,给该领域的研究带来了新颖的实际应用需求和技术理论支撑。其中如何融合自然语言处理技术用于深度视觉理解,以提供给用户更为自然的图像视频理解与交互方式,仍亟待研究。其实现会为下一代大规模智能多媒体分析提供关键的技术支撑。本项目针对此重要课题展开研究,拟深入探索多媒体内容理解、语义分析以及自然语言处理等关键技术,具体对三个方面的内容展开研究:(1)提出一个普适的深度网络对海量的图像视频和文本特征进行快速有效的提取;(2)将自然语言处理融合进视觉理解以改进视觉的文本描述;和(3)融合交互式视觉理解与自然语言处理以完善视觉问答系统。上述三个研究点关联紧密且相互增强,为融合自然语言处理的视频理解奠定了理论基础。依托本项目,已完成的研究成果为:发表高水平论文30篇(CCF A类会议论文和JCR二区以上期刊论文),培养研究生(博士和硕士)17名,申请专利2项。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
面向工件表面缺陷的无监督域适应方法
协同深度视频理解、描述和视觉问答的关键技术研究
融合先验建模和深度学习的自然场景视觉理解研究
单光子成像与深度学习融合的仿生视觉芯片关键技术研究
自然语言理解中事件真实性判别关键技术研究