Accurately extracting and recognizing scene text and overlaid text in images and videos means a lot for computers and can be widely applied in many applications. In this project, we will systematically conduct reseaches on varous key techniques involved,including the localization, segmentation, rectification of scene text, the localization,segmentation of overlaid text, as well as the recogniton of characters imperfectly segmented out, and we will emphasize the theory innovation. The concrete research topics include: (1) the approach to detecting scene text based on graph model;(2)the techniques of detecting low-resolution scene text under complex lighting conditions if some priori knowledge is available;(3)an effective technique to implement edge detection and region segmentation in one body; (4) the rectification techques of scene text which has been distorted by the projective transform of cameras;(5)an unified approach to extracting both scene text and embedded text; (6)the approach to constructing recognition system with noisy input and a large number of class labels as ouput by redundant n-fork trees and graph model.The research topics of the project are tightly related with practical applications, and at the same time the potential research results are very valuable for enriching the fundamental theory of object detection, object recognition, machine learning etc.
准确提取识别图片视频中的图形像素文字具有重要的研究意义与广阔应用前景。本项目将系统地研究涉及的各种关键技术,包括场景文字的定位、分割、矫正、复杂背景中叠加文字的定位、分割,以及非理想分割状况下的字符识别,并注重一般性理论的拓广创新。具体的研究问题包括:基于图模型的一般场景文字检测算法;先验知识导向下低分辨率、复杂光照条件下场景文字的检测方法;将边缘检测与区域分割融为一体的高效分割技术;对于发生透视变形的场景文字,基于多种线索的视图矫正计算方法;可同时提取叠加文字与场景文字的统一方法;基于冗余多叉树与图模型求解带噪声的大数目类别的识别模型。本项目的研究内容不仅与实际应用紧密相关,同时项目潜在的研究成果对丰富目标检测、对象分割、机器学习等基础理论也具有重要价值。
围绕准确提取并识别图片、视频中嵌入文字的研究内容,本课题系统地开展了各种关键技术的研究工作,并在场景文字的定位、分割, 复杂背景中叠加文字的定位、分割与识别技术方面取得了满意的进展与成果。在研究过程中,我们借鉴国际上的新的研究动向,拓宽我们的研究思路,尝试将新的技术(包括显著性检测、对象性估计、深度学习等)引入到我们所研究的问题中来,提升了我们研究成果的创新多样性与前沿性。具体地,我们将显著性引入到场景文字的检测提高检测的鲁棒性。开展对象性估计研究可以数量级级别提升文字对象的检测速度。深度学习是近年来用于解决各种识别问题的有效工具,我们已经成功地将它应用于复杂背景下叠加文字的识别,在无需分割、背景去除的情况下取得了令人惊讶的实验结果。在研究过程中,我们采用合成技术建立了我们所知的世界上叠加汉字最大的数据集,为我们将来进一步开展基于深度学习相关文字定位与识别技术奠定了重要的数据基础与经验。另外,通过本课题的创新拓展研究,我们在显著性检测、对象性估计以及深度学习等方面也取得了高水平一系列研究成果,在CCF国际A类期刊(IEEE transactions on Image Processing)上目前已经发表了两篇期刊regular论文。叠加文字的识别技术已经可以进入到实用推广阶段。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
图片视频中叠加文字提取识别技术研究
基于深度信息的复杂场景文字识别研究
复杂场景图像中维吾尔文字的定位与识别技术研究
基于文字对称性与场景上下文信息的自然场景文字检测研究