As video has become the biggest data in the big data, how to achieve efficient coding, analysis and utilization of the massive video data emerges as one of the challenging problems in the multimedia community. The existing video codecs still adopt the conventional pixel-level prediction and transform-based coding method, which do not explicitly take into account the complex motion and scene information in the video and lead to insufficient removal of motion and scene redundancy, thus low efficiency video coding. More importantly, video coding is performed and optimized separately from video analysis, without considering the needs of large-scale machine-based intelligent analysis and processing, which lead to lack of support for video intelligence analysis. Facing the technical challenges above, this project aims to break through the pixel signal processing-based coding framework and human vision-oriented quality evaluation of conventional digital video codec, and develop a high efficiency video coding framework with the help of new visual analysis and processing mechanism and techniques. The novelty and technical contributions includes: 1) content analysis-oriented machine processing and human vision-friendly video quality evaluation; 2) feature matching and clustering-based complex motion modeling and prediction; 3) scene classification-based adaptive coding. The proposed high efficiency video coding framework is supposed to not only improve the coding efficiency, but also provide better video quality for human perception as well as large-scale machine-based intelligent analysis and processing, which is of great theoretical and practical value to the next generation video coding standard as well as the video analysis community.
视频数据已成为大数据中的“大中之大”,如何实现海量视频数据的高效编码与分析利用成为大数据时代的突出问题之一。现有视频编码仍采用传统基于像素块的预测变换编码方法,编码与分析脱节,未有效考虑视频中的复杂运动和场景信息、特别是后续面向机器的大规模分析处理需求,导致监控视频大数据“存不下”、“传不动”、人工处理“效率低”而机器处理又“判不准”,无法满足监控视频大数据的高效编码与高精度分析研判需求。针对上述技术挑战,本项目拟突破传统视频“像素信号处理”的编码框架约束和“以人为本”的质量评价体系,融合视觉分析处理技术,研究面向内容分析的人机共判视频质量评价、基于特征匹配与聚类的复杂场景运动建模与预测和基于场景内容分类的自适应高效编码方法等,形成面向人机共判的监控视频大数据高效编码框架,对视频编码与分析利用效率的提升和新型高效视频编码标准的制定具有重要理论意义和实用价值。
本项目在监控视频运动特性、前背景特性分析的基础上,结合监控视频最终供人眼主观观看和机器客观分析的特点,深入研究了基于运动/场景建模和人机共判准则的监控视频高效编码问题,提出了一系列基于内容分析的监控视频高效编码算法,主要包括:(1)结合目标检测、识别等典型视频分析处理任务,分析和实验验证了面向人眼主管感受和面向机器自动分析判别的区别,并从保证视频(包括前景目标和背景)主观质量和前景目标特征的角度研究了基于彩色JND模型的自适应量化方法和基于语义分割/特征图的前景目标高效编码算法,在保证人眼主观感受的同时,有效降低了视频编码效率和面向机器自动分析判别的性能;(2)针对监控视频中目标的复杂运动建模与帧间编码效率低的问题,分别从整像素和亚像素角度,研究并提出了基于预测单元分类的快速整像素运动估计算法和基于多方向抛物线预测模式的快速亚像素运动估计算法,在保证视频编码质量的前提下,可以有效降低帧间编码运动估计的计算复杂度;(3)针对监控场景下背景变化小、前景目标可能重复出现导致的信息冗余和编码效率不高的问题,分别研究并提出了基于全局运动补偿的背景参考帧建模算法和基于前景目标库预测的前景编码算法,显著提升了监控视频编码性能;(4)整合提出的高效帧间、帧内、变换、量化等一系列快速优化算法,并针对硬件平台特点,设计并实现了基于多核DSP的HEVC/H.265实时编码板,可实现多路视频的大范围带宽自适应实时编码。. 基于项目成果,已在IEEE T-CSVT、T-MM、DCC等多媒体与视频编码领域顶级期刊会议发表论文27篇,其中SCI检索论文14篇(Q1区12篇),EI检索论文13篇(CCF A类4篇);申请发明专利受理7项(其中5项已授权)、登记软件著作权1项,知识产权转化(转让或许可)7项。研制了国内首款基于多核DSP的HEVC实时分析编码板,相关成果已应用于某型号装备,同时多项技术已转化应用。相关成果获2019年国家科技进步二等奖(郑锦),并已联合中科大申报2021年安徽省科技进步一等奖(张永飞,评审结果已公示),军事效益、社会效益与经济效益显著。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
基于分形L系统的水稻根系建模方法研究
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
复杂场景下监控视频目标的运动模式挖掘方法研究
基于统计建模和稀疏表示的图像视频增强表达和高效编码
信息确定度自适应的监控视频高效编码研究
基于统计与流形的视频监控场景表示理论