With the popularity of the Internet and the enhancement of machine performance, the automatic understanding of visual information are highly desired, and visual question answer has become popular. However, due to the lack of fine-grained annotation images and video, image question answer faces the disadvantages of reasoning and counting problems, and the feature extraction of video question answer becomes a performance bottleneck. We intends to learn knowledge from external datasets to help solve the complex problems in image question answer and the difficult problem of video feature extraction, and to carry out research around related issues. The main contents include: 1) research on multi-module entity relationship extraction and relational expression in image question and answer; 2) study the relationship among entities and merging the features of images, texts and entities relationship ; 3) study the complex video semantic feature extraction problem in combination with entity relationship model in video question answer;4) Design a visual question answer data acquisition system in the login interface using the commonly used websites on our university. Our research will be conducive to the theory and application of visual understanding, and can continue to provide continuous data support for visual question answer, and effectively promote the development and popularization of visual understanding.
随着互联网的普及以及机器性能的增强,对视觉信息的自动理解为成迫切需求,视觉问答技术随之流行。然而由于细粒度标注图像以及视频的缺失,图像问答面临推理类问题和计数类问题性能的劣势,视频问答的特征提取成为性能瓶颈。本课题拟从外部数据集学习知识,帮助解决图像问答中较为复杂的问题以及视频特征提取的难题,并围绕相关问题开展研究。主要内容包括:1)研究图像问答中多模块实体关系抽取及关系表达问题;2)研究图像问答中实体关系与图像、文本的特征融合问题;3)研究视频问答中结合实体关系模型的复杂视频语义特征提取问题;4)以校内常用网站为媒介,在登录界面设计视觉问答数据采集系统。本课题将有利于视觉理解的理论和应用,并能够持续为视觉问答提供源源不断的数据支持,有力推动视觉理解的发展及普及。
随着互联网的普及以及计算机设备性能的增强,当前的人工智能算法已经能够较好的处理图像、文本、语音等单模态信息,但对于多模态任务(如视觉问答、图像生成等)仍力不从心。目前基于深度学习算法的视觉问答模型基本以数据驱动为主,当数据集中的测试集分布和训练集分布明显不同时,模型精度往往较差。数据驱动的模型严重限制了视觉问答任务精度的提升,进而制约了视觉内容理解领域的发展。为此本项目基于视觉问答的特征融合出发,深入分析和研究了因数据集偏差带来的语言先验问题,基于仅问题模型设计了视觉支路模块;发现了视觉问答模型普遍存在的“过自信”现象,设计了衡量模型自信度的指标和消除“过自信”现象的正则函数;基于当前模型存在的“答非所问”现象设计了答案掩码模块;针对模型偏移不能普遍适用的情况设计了随机化偏移及两阶段训练方法。上述方法互为补充,能够极大提高基础模型的精度,为视觉内容理解提供了理论支持和实用验证。本项目发表论文10篇,均为第一标注,另有2-4篇在审/撰写中;申请发明专利2项;培养硕士生6人,其中4人已毕业。依托本项目,项目负责人成立“计算机视觉工程研究中心”校级科研团队,7名参与人在项目执行期间职称均有提高,学院科研实力明显增强。本项目的研究成果对视觉理解的发展有一定推动作用,本项目的经费支持能够显著提高硕士生培养质量,也能够极大提升科研团队建设以及未来阜阳产业化项目落地力度。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
协同深度视频理解、描述和视觉问答的关键技术研究
社区问答系统关键技术研究
基于深度神经网络的实体关系抽取关键技术研究
基于无监督知识提取和多关系表示学习的自动问答关键技术研究