基于关注发现、标题提取、以及语义索引的查询感知视频诠释模型

基本信息

批准号：61872256

项目类别：面上项目

资助金额：63.00

负责人：魏骁勇

学科分类：

依托单位：四川大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：郭际香,李雪冬,胡鹏,刘培,张璐,王泽荣

关键词：

内容分析查询感知视频摘要关注发现

结项摘要

The ambition of this project, based upon PIs’ extensive experience in concept-based video indexing and cross-modal 0-example search, is to fill in the knowledge gap between current state-of-arts in video recounting and captioning, while applying for web video surveillance. Example of search scenario is finding videos of “A man shouting while holding a flag”, where the expected results include recounting a candidate video with: who (person name), what (audio-visual objects like shouting and flag), where and when (the location and time of event), in natural language (English and Chinese) sentences. The associated challenges are three aspects: Attention – how to dynamically select query-relevant fragments from a long video for recounting; Captioning – how to generate sentences that explain queries and contrast the visual content among the retrieved video candidates by filling in sentences with name entities; Indexing – what are the processing required for enabling real-time interactive large-scale video search. The academic value of this proposal lies in bridging the knowledge gap on empowering video recounting capability with query-aware captioning, which is a new topic not previously addressed in the literature. The proposal also has significant translational value in speeding up time required for filtering false alarms in forensic and web monitoring applications, by generating textual snippets for recounting video relevancy and diversity. In this proposal, a system prototype will be built to demonstrate the proposed works for web surveillance of online videos.

本项目将构建一个新的查询感知（Query-Aware）视频诠释模型。该模型能对用户查询的具体语义需求进行分析、提取、和展示，有针对性地生成包含4W细节信息的多语言（中文和英文）视文片段，并有效地增加视频结果展示的相关性（Relevancy）和差异性（Diversity）。利用研究团队在视频检索、语义索引、标题提取、视频摘要、交互式检索等领域长期的研究积累，项目最终将生成一个实时的、可运行的视频检索原型系统。其科学价值在于将填补传统视频内容分析与视频诠释之间的空白，使相关研究形成一个包含语义索引-视频查询-结果展示-用户交互的完整闭环。其应用价值在于本项目的成果将有效减少视频检索及网络视频监控系统中的虚警率，提高检索和过滤的效率。

项目摘要

本项目构建了一个具有查询感知力的(Query-Aware)多模态数据诠释框架。该框架主要从注意力和可解释性两方面着手。针对传统的通过优化损失为导向的、直接对权重进行学习的注意力机制，我们构建了通过查询对象来设计注意力分布函数然后让损失优化学习注意力函数的相关参数的方法。这种方法将专家对于查询的知识转化成形式化的函数表达来达到知识注入的目的，同时也避免了直接学习注意力权重的随机性。针对传统方法中使用结果注意力在目标对象上的关注情况来进行解释的定性方式，我们提出将注意力转化为决策树（森林）的知识转化方法，能够产生人类专家可以直接解读的逻辑结构。两种机制的叠加使得框架的性能和实用性都得到了显著的提升。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16798/j.issn.1003-0530.2020.01.008

发表时间：2020

DOI：

发表时间：2019

DOI：10.13383/j.cnki.jse.2020.04.001

发表时间：2020

DOI：10. 11772 /j. issn. 1001-9081. 2017. 10. 2760

发表时间：2017

DOI：10.13529/j.cnki.enterprise.economy.2019.09.014

发表时间：2019

魏骁勇的其他基金

批准号：61001148

批准年份：2010

资助金额：25.00

项目类别：青年科学基金项目

批准号：61272256

批准年份：2012

资助金额：82.00

项目类别：面上项目

相似国自然基金

基于语义分析和视觉关注的视频自适应研究

批准号：60905008

批准年份：2009

负责人：王金桥

学科分类：F0604

资助金额：18.00

项目类别：青年科学基金项目

基于内容的医学PACS图象索引及查询提取方法研究

批准号：30570512

批准年份：2005

负责人：张建国

学科分类：H2708

资助金额：26.00

项目类别：面上项目

基于认知计算模型和电影理论的多线索视频语义提取

批准号：60772114

批准年份：2007

负责人：蔡安妮

学科分类：F0117

资助金额：30.00

项目类别：面上项目

基于视频流体模型的人体运动特征提取与运动过程语义建模

批准号：61262037

批准年份：2012

负责人：唐权华

学科分类：F0210

资助金额：43.00

项目类别：地区科学基金项目

基于关注发现、标题提取、以及语义索引的查询感知视频诠释模型

{{i.achievement_title}}

暂无此项成果

其他相关文献

TVBN-ResNeXt:解决动作视频分类的端到端时空双流融合网络

结合词性、位置和单词情感的内存网络的方面的情感分析

移动情境感知环境下的用户行为模式挖掘算法研究

基于负载感知的数据流动态负载均衡策略

不患寡而患不均:不公平感知对机会主义行为容忍影响

魏骁勇的其他基金

由概念驱动的多模态多媒体信息融合技术

用于交互式视频检索的教练式主动学习模型

相似国自然基金