基于图模型的场景文字与叠加文字提取识别技术研究

基本信息

批准号：61271434

项目类别：面上项目

资助金额：76.00

负责人：王伟强

学科分类：

依托单位：中国科学院大学

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：刘晓倩,姬张建,黄绍,张驰,高云飞,张辉,王付源,张志科

关键词：

图模型文字提取字符识别机器学习区域分割

结项摘要

Accurately extracting and recognizing scene text and overlaid text in images and videos means a lot for computers and can be widely applied in many applications. In this project, we will systematically conduct reseaches on varous key techniques involved，including the localization, segmentation, rectification of scene text, the localization,segmentation of overlaid text, as well as the recogniton of characters imperfectly segmented out, and we will emphasize the theory innovation. The concrete research topics include: (1) the approach to detecting scene text based on graph model;(2)the techniques of detecting low-resolution scene text under complex lighting conditions if some priori knowledge is available;(3)an effective technique to implement edge detection and region segmentation in one body; (4) the rectification techques of scene text which has been distorted by the projective transform of cameras;（5）an unified approach to extracting both scene text and embedded text; （6）the approach to constructing recognition system with noisy input and a large number of class labels as ouput by redundant n-fork trees and graph model.The research topics of the project are tightly related with practical applications, and at the same time the potential research results are very valuable for enriching the fundamental theory of object detection, object recognition, machine learning etc.

准确提取识别图片视频中的图形像素文字具有重要的研究意义与广阔应用前景。本项目将系统地研究涉及的各种关键技术，包括场景文字的定位、分割、矫正、复杂背景中叠加文字的定位、分割，以及非理想分割状况下的字符识别，并注重一般性理论的拓广创新。具体的研究问题包括：基于图模型的一般场景文字检测算法；先验知识导向下低分辨率、复杂光照条件下场景文字的检测方法；将边缘检测与区域分割融为一体的高效分割技术；对于发生透视变形的场景文字，基于多种线索的视图矫正计算方法；可同时提取叠加文字与场景文字的统一方法；基于冗余多叉树与图模型求解带噪声的大数目类别的识别模型。本项目的研究内容不仅与实际应用紧密相关，同时项目潜在的研究成果对丰富目标检测、对象分割、机器学习等基础理论也具有重要价值。

项目摘要

围绕准确提取并识别图片、视频中嵌入文字的研究内容，本课题系统地开展了各种关键技术的研究工作，并在场景文字的定位、分割, 复杂背景中叠加文字的定位、分割与识别技术方面取得了满意的进展与成果。在研究过程中，我们借鉴国际上的新的研究动向，拓宽我们的研究思路，尝试将新的技术（包括显著性检测、对象性估计、深度学习等）引入到我们所研究的问题中来，提升了我们研究成果的创新多样性与前沿性。具体地，我们将显著性引入到场景文字的检测提高检测的鲁棒性。开展对象性估计研究可以数量级级别提升文字对象的检测速度。深度学习是近年来用于解决各种识别问题的有效工具，我们已经成功地将它应用于复杂背景下叠加文字的识别，在无需分割、背景去除的情况下取得了令人惊讶的实验结果。在研究过程中，我们采用合成技术建立了我们所知的世界上叠加汉字最大的数据集，为我们将来进一步开展基于深度学习相关文字定位与识别技术奠定了重要的数据基础与经验。另外，通过本课题的创新拓展研究，我们在显著性检测、对象性估计以及深度学习等方面也取得了高水平一系列研究成果，在CCF国际A类期刊（IEEE transactions on Image Processing）上目前已经发表了两篇期刊regular论文。叠加文字的识别技术已经可以进入到实用推广阶段。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16285/j.rsm.2019.1280

发表时间：2019

DOI：10.16383/j.aas.2016.c150880

发表时间：2016

DOI：10.12062/cpre.20181019

发表时间：2019

DOI：

发表时间：2022

DOI：10.3969/j.issn.1003-0077.2018.11.009

发表时间：2018

王伟强的其他基金

批准号：60873087

批准年份：2008

资助金额：30.00

项目类别：面上项目

批准号：61504060

批准年份：2015

资助金额：21.00

项目类别：青年科学基金项目

批准号：51371042

批准年份：2013

资助金额：80.00

项目类别：面上项目

批准号：51178316

批准年份：2011

资助金额：50.00

项目类别：面上项目

批准号：61772495

批准年份：2017

资助金额：17.00

项目类别：面上项目

相似国自然基金

图片视频中叠加文字提取识别技术研究

批准号：60873087

批准年份：2008

负责人：王伟强

学科分类：F0210

资助金额：30.00

项目类别：面上项目

基于深度信息的复杂场景文字识别研究

批准号：61501192

批准年份：2015

负责人：李南希

学科分类：F0116

资助金额：19.00

项目类别：青年科学基金项目

复杂场景图像中维吾尔文字的定位与识别技术研究

批准号：61562058

批准年份：2015

负责人：许亚美

学科分类：F0605

资助金额：37.00

项目类别：地区科学基金项目

基于文字对称性与场景上下文信息的自然场景文字检测研究

批准号：61702160

批准年份：2017

负责人：巫义锐

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

基于图模型的场景文字与叠加文字提取识别技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

粗颗粒土的静止土压力系数非线性分析与计算方法

基于SSVEP 直接脑控机器人方向和速度研究

中国参与全球价值链的环境效应分析

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于细粒度词表示的命名实体识别研究

王伟强的其他基金

图片视频中叠加文字提取识别技术研究

封闭型与开放型集成的数字微流控芯片中液滴驱动机制与操控研究

微纳米双重结构TiO2膜层的微弧氧化形成机制及其骨组织相容性

基于低碳城市目标的住区模式选择研究——以上海曹杨新村为典型案例

面向大类别的空中手写中英文识别技术研究

相似国自然基金