Natural scene text detection is an important technology in image retrieval, intelligent transportation and visually impaired person guiding, etc. However, natural scene text detection from images is a challenging problem due to the variability of text font, size, color, arrangement orientation as well as lighting changes, complex background and noise interference, etc. Currently, most researchers characterize the text candidate regions by using the hand crafted features, and they separately identify the text candidate regions while ignoring the context information between the adjacent text candidates, which affect the detection performance. On the contrast, our project focuses on combining the visual context and the text saliency, and innovatively presenting a natural scene text detection solution. Firstly, the natural scene image is binarized by using the graph cut and the Maximally Stable Extremal Regions (MSER) to obtain high-quality text connected components. Secondly, combining the hand crafted features and the deep learning methods to study high identification performance text features and text recognition technology. Thirdly, combining the image underlying perception, text high level information and visual context information to design natural scene text saliency model. Fourthly, based on our previous research works and followed with the aforementioned novel methods, we plan to construct an efficient and feasible system for text detection in the natural scene images. The achievements of this project will include some important theoretical significance and extensive practical value in character recognition, pattern classification, and machine learning.
自然场景文字检测是实现图像检索、智能交通以及移动导盲等应用的重要技术手段。自然场景文字字体、大小、颜色和排列方式的多样性,以及光照变化、复杂背景、噪声干扰等因素给文字检测带来了极大的挑战。当前技术主要采用手工设计的特征来分类文字区域与背景区域,孤立地识别文字却忽略了相邻文字上下文信息,从而影响了算法检测性能。本课题基于视觉上下文与文字显著性研究自然场景文字检测方法,主要内容包括:(1)结合图割与最大稳定极值区域方法以改善文字连通区域提取结果;(2)融合手工设计的特征与深度学习获得的特征,研究具有高分类性能的文字特征以及文字识别技术;(3)结合图像底层感知内容、文字高层信息以及视觉上下文信息,设计自然场景文字显著性模型;(4)基于我们前期研究工作并结合上述创新方法,构建一套高效可行的自然场景文字检测系统。本课题的研究成果在文字识别、模式分类、机器学习等方面具有重要的理论意义与广泛的实用价值。
针对复杂自然场景中的文本检测问题,本课题在深度学习与传统方法框架下,首先对水平方向排列的文本进行检测研究,然后在此基础上扩展至多方向文本检测。为了有效地从复杂自然场景中检测出文本区域,本研究分别通过利用多通道信息融合、视觉上下文、目标显著性以及深度学习等技术手段,此外,为了提高文本检测召回率,本课题还提出了基于种子文本区域的自启发搜索方法。除此之外,在进行文献调研与实验反思的基础上,对自然场景文本检测方法的研究现状、存在问题、面临的挑战与发展趋势等方面进行了全面地综述。由于目标显著性检测能够有效地抑制背景区域突出目标前景,本研究还对目标显著性检测问题展开了研究;最后,考虑到文本检测技术与自然场景图像分类方法相结合可以提高图像的细粒度分类性能,本课题还对自然场景图像分类问题进行了探讨;本课题针对复杂自然场景中的文本检测问题及其相关问题展开研究并取得了一些有意义的结果,对文本处理技术和认知科学的研究具有一定的促进作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
内点最大化与冗余点控制的小型无人机遥感图像配准
基于全模式全聚焦方法的裂纹超声成像定量检测
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于文字对称性与场景上下文信息的自然场景文字检测研究
上下文约束的自然场景多类对象检测
面向复杂场景的显著性检测方法研究
盲人视觉辅助应用中的自然场景文字提取关键技术研究