Text, as a common experienced content contained in screen content videos, has significant content property differences compared with natural images. Therefore, developing high efficiency coding technologies for text contained in screen content videos is important to allow the effective operation of screen content video communication system in education, news, medical and other fields. This project focuses on rate distortion (RD) optimization which is a key technology that affects the video coding performance. Effective RD optimization methods will be studied for the screen content coding (SCC) based on the perceptual distortion metric. The innovation works include: the perceptual quality model for text is developed based on the influence that the loss of the strokes has to the understanding of text combined with the motion and the selective attention mechanism. The distribution of the coding residue of the text regions and the dependency relationship of the head information of coding units are utilized to build the rate model. The perceptual quality model and the rate model are combined to get the RD model and the related perceptual RD optimization methods based on Lagrange RD optimization theory. Then fast RD optimization methods are studied based on the spirit of RD cost estimation. This project aims at effectively improving the encoding performance of SCC and ensuring the efficiency of the screen content video communication systems, related research results has significant theoretical meaning and are important to real applications.
文字作为屏幕内容视频中广泛存在的一类内容,与自然图像相比,其内容特性存在显著差别。所以,针对文字研究高效的视频编码技术,是当前屏幕内容视频通信系统在教育、新闻、医疗等领域有效运行的基本保障。本项目面向屏幕内容编码,针对率失真优化这一显著影响视频编码性能的关键技术,研究基于感知失真测度的适用于文字的高效率失真优化方法。项目的创新性工作包括:研究文字笔画丢失对文字语义理解的影响,并进一步考虑运动、人眼选择注意机制等因素,建立衡量文字感知质量的模型;研究文字区域残差数据的分布特性及编码单元头信息的依赖关系,建立码率模型;基于感知质量模型、码率模型及拉格朗日率失真优化理论,研究得到感知率失真优化方法;最后基于率失真代价预测的思路,研究率失真优化快速算法。本项目研究成果,将显著提高屏幕内容视频的编码性能,有效保障屏幕内容视频通信系统的运行,具有重要的理论研究意义及工程应用价值。
本项目面向屏幕内容编码,针对率失真优化这一显著影响视频编码性能的关键技术,研究适用于文字和屏幕内容视频的高效率失真优化方法。按照技术逻辑,项目的研究内容分以下三个部分,即质量模型、码率模型和基于拉格朗日率失真优化理论的率失真优化方法。具体的,质量模型相关研究包括:研究了屏幕内容编码引起的文字笔画丢失、文字模糊等失真类型对文字质量感知的影响,提出适用于屏幕内容视频文字区域的质量评估方法;面向视频编码中的帧内图像,综合考虑图像内容复杂度及量化参数的影响,提出一种快速有效的帧内图像质量估计方法;分析了屏幕内容视频包含的典型运动类型特征,提出了有效识别屏幕内容视频中运动类型的方法,并进一步将此方法在教育领域进行应用,提出了面向教育类屏幕内容视频考虑主观切换等级的轻量级视频摘要算法;研究了帧分辨率对于视频内容特性评价的影响,并结合视频纹理复杂度和运动速度,提出一种适应更广分辨率范围的视频空时域复杂度评价方法。准确的视频内容特性评价是建立准确质量模型和码率模型的前提,以上几项关于视频内容特性的研究有效促进了本项目相关模型的建立。码率模型相关研究包括:考虑图像空域内容特性及量化参数对于屏幕内容视频编码码率的显著影响,提出一种快速准确的帧内图像码率估计方法;结合人类视觉感知特性,从设计视频主观观测实验出发,考虑视频不同区域的内容特性及感知差异性的影响,提出了一种有效的感知帧内码率控制算法。率失真优化技术相关研究包括:提出了针对低时延编码结构考虑时间层编码信息依赖性的时间层级率失真优化技术;构建了考虑全部参考帧影响的拉格朗日率失真代价函数,并以此为基础提出了帧级率失真优化技术;探索了考虑区域差异性的区域级率失真优化技术并在图像编码中验证了其性能的优越性。本项目的研究成果可显著提高屏幕内容视频及文字区域的编码性能,为屏幕内容视频在远程教育、视频会议、远程医疗等领域的有效应用提供理论和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于多模态信息特征融合的犯罪预测算法研究
坚果破壳取仁与包装生产线控制系统设计
肉苁蓉种子质量评价及药材初加工研究
天津市农民工职业性肌肉骨骼疾患的患病及影响因素分析
采用深度学习的铣刀磨损状态预测模型
面向监控视频编码的分类率失真优化方法研究
HEVC标准框架下面向复合内容的屏幕视频编码
可伸缩视频编码多目标分辨率率失真优化方法研究
基于感知失真度量的高效视频编码率失真优化研究