With the vast amount of multimedia information on the Web, multimedia question answering is becoming an important challenging problem and has attracted a lot of attentions from both research and industrial communities. The central problem of multimedia question answering is to answer the textual question from the multimedia source content, which belongs to the category of cross-modal information retrieval. However, most of the existing question answering methods which focuses on the textual source content and belong to the category of uni-modal information retrieval, may not be directly applied to this problem...In this proposal, we introduce the problem of multimedia question answering from the viewpoint of multi-modal heterogeneous feature representation under the framework of cross-media computing. We introduce three important research areas of this problem, which are robust multi-modal feature representation, image parsing for object detection and region annotation, and learning multi-modal heterogeneous feature fusion for cross-media question answering. We first study the problem of robust multi-modal feature representation from the viewpoint of dictionary learning. We propose three approaches for this problem, which are robust multi-modal dictionary learning, multi-modal regularization learning and semi-supervised multi-modal dictionary learning. We then study the problem of imaging parsing based on the framework of deep learning and multi-instance learning. We propose a joint framework of deep multi-instance learning for image parsing that learns the object detection and region annotation simultaneously. Finally, we tackle the problem of cross-media question answering based on multi-source heterogeneous feature fusion. We learn the feature representation of textual based on syntactic parser and the CNN feature of image regions by R-CNN algorithm. We then fuse these heterogeneous features and take the multi-class classification method based on softmax activation to return the answer for multimedia question. We also build a system to deploy our proposed algorithms based on the collected data from Flickr and MS COCO.
随着互联网海量数据类型愈加丰富,多媒体问答正成为工业界和学术界共同关注的研究重点。传统问答技术主要基于文本数据展开,是一种多模态检索方法,很难直接应用于多媒体问答检索任务。本项目拟采用跨媒体计算基本理论和方法,对多源异构数据学习得到一致表达,进而挖掘其关联模式,从而用户查询语义意图和被检索数据底层特征之间存在的“语义鸿沟”在多媒体问答中实现对不同媒体类型之间的内容跨越。本项目拟基于互联网海量图像数据作为数据对象,通过对多模态数据特征的鲁棒学习,基于弱监督学习的图像目标语义解析和不同粒度层次上的异构特征融合表示开展研究,从而实现更精准的跨媒体问答服务。本项目提出多模态正则化鲁棒字典学习,基于深度多示例学习的图像目标语义解析此外和多粒度异构特征融合的跨媒体问答的研究方案。此外,本项目基于上述研究开发原型系统及开展实证测试,既为媒体大数据提供问答检索平台,又为跨媒体检索发展提供理论和技术支持。
随着互联网中海量数据类型愈加丰富,主题或事件通常由不同类型的媒体数据来表达,跨媒体问答技术正成为工业界和学术界共同关注的研究重点。 多源异构特征融合和视频问答与定位是跨媒体问答研究中的两个难点问题。 本项目基于多源异构数据(如图像、视频、文本和社交网络),结合自然语言理解技术与计算机视觉技术,围绕异构数据统一表示方法和视频问答与定位算法框架这两个问题,提出:..1) 异构数据融合方法,学习不同模态数据语义的互补性,从而提高任务的准确度。在视觉与文本特征融合方面,提出多角度排序模型,用于多媒体推荐系统。针对异构图和文本特征融合方面,提出子图增强嵌入方法,用于异构图搜索应用。.2) 基于结构化编码的视频问答与定位方法,学习视频内容中物体之间空间和时序的依赖关系。提出基于视频问答的视频序列表示任务,以问答作为监督训练,从而学习视频语义表示。提出基于静态物体空间表示和动态动作时序关系表示的双通道视频推理问答表示基本框架、关系检测与推理的复杂视频问答表示方法和层级聚焦的长视频问答表示。..相关成果发表于ACM/IEEE刊物5篇(其中包括3篇IEEE TIP、 1篇IEEE TMM和1篇ACM TOMM)、 中国计算机学会CCF-A类会议论文22篇(其中包括3篇AAAI、8篇IJCAI、4篇SIGIR、3篇ACM MM、 2篇WWW、 1篇KDD和1篇NeurIPS)、相关专利受理19项。项目工作所形成的数据集ActivityNet-QA正成为业界ground-truth数据集,也成为2018年之江实验室比赛的基准数据。围绕视频问答任务,设置之江实验室“之江杯-视频问答比赛”赛题。基于ActivityNet-QA的跨媒体问答技术与华为公司合作研发新型验证码系统。通过基于半监督学习自动生成海量VQA问答对,用于人机验证。基于项目所研究成果,获得浙江省自然科学基金杰出青年基金资助“跨媒体知识网络构建和视频语义理解关键技术研究”(2018年)和国家自然基金委重点项目课题“基于大规模跨媒体知识网络的复杂视频问答方法研究”资助(2019年-2023年)。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
空气电晕放电发展过程的特征发射光谱分析与放电识别
基于多源异构数据的知识图谱构建、推理与问答研究
面向网络异构信息源的问答资源挖掘
面向高层语义的跨媒体特征表达机制研究
多源传感器环境下基于异构特征信息融合的行为识别