基于跟踪的多方向场景文本检测

基本信息

批准号：61806017

项目类别：青年科学基金项目

资助金额：27.00

负责人：田澍

学科分类：

依托单位：北京科技大学

批准年份：2018

结题年份：2021

起止时间：2019-01-01 - 2021-12-31

项目状态：已结题

项目参与者：殷绪成,裴唯一,侯杰波,余智炫,曹秒,蒋淼童,徐奔,刘琦,孙明

关键词：

场景文本跟踪多方向文本场景文本检测

结项摘要

Computer vision is a very popular research field in recent years, in which video understanding is a research hot. In the literature, some research shows that the semantic information from text contains more than 70% of the whole image, so detecting and recognizing text from images and videos is an important task for video understanding. Multi-orientation scene text detection is a difficulty. Its challenges includes skew distortion, low contrast, and arbitrary motion. Most conventional video text detection methods using individual frames have limited performance. First, we research a multi-information fusion-based multi-orientation text detection method in each frame is proposed to extensively locate possible character candidates and extract text regions with multiple channels and scales. Second, we research a tracking-by-detection methond: energy minimizing based tracking to improve the simple tracking method. Finally, we research a dynamic programming based text tracking framework in which 3 different type tracking methods are used respectively and combined finally to improve detetion。

计算机视觉是近年来非常热门的研究领域，其中视频理解是一个研究热点。研究表明，在有文字的图像中，文字所包含的语义信息占整张图像的70%以上，因此对图像中的文本进行提取和识别是视频理解的重要任务。其中，多方向场景文本的检测是一个难点，其中的挑战包括扭曲，低对比度，不规则运动等等。传统方法常采用单帧图像做文本检测，这影响了其效果。本项目首先研究一种单帧图像的多信息融合的多方向文本检测方法，在多通道多尺度上定位字符候选并获取文本区域。然后研究一种tracking-by-detection方法：基于能量最小化的跟踪方法，提高单独跟踪算法效果。最后研究一种基于动态规划的文本跟踪框架，采用3种不同类别的跟踪方法分别进行跟踪，然后融合，提高检测效果。

项目摘要

计算机视觉是近年来非常热门的研究领域，其中视频理解是一个研究热点。研究表明，在有文字的图像中，文字所包含的语义信息占整张图像的70%以上，因此对图像中的文本进行提取和识别是视频理解的重要任务。其中，多方向场景文本的检测是一个难点，其中的挑战包括扭曲，低对比度，不规则运动等等。传统方法常采用单帧图像做文本检测，这影响了其效果。本项目首先提出了一种单帧图像的多信息融合的多方向文本检测方法，通过字符候选提取，字符候选的验证和融合，文本候选区域的构建和文本候选区域的过滤，解决了多通道多尺度的算法带来的冲突和更多误检。然后提出了一种基于能量最小化的跟踪方法，通过结合检测能量模型、外观能量模型、互斥能量模型，提高跟踪算法效果。然后提出了一种基于动态规划的文本跟踪框架，采用3种不同类别的跟踪方法分别进行跟踪，然后融合，高检测效果。最后，提出了一种基于时空信息的文本跟踪算法，将检测和跟踪任务融合到一个深度神经网络中，提高了性能。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

田澍的其他基金

批准号：71502038

批准年份：2015

资助金额：19.00

项目类别：青年科学基金项目

相似国自然基金

基于自动多阈值分割技术的复杂自然场景图像文本信息检测与分割

批准号：61702118

批准年份：2017

负责人：姜允志

学科分类：F06

资助金额：26.00

项目类别：青年科学基金项目

基于多信息融合的自然场景图像中的文本检测和识别方法研究

批准号：61305004

批准年份：2013

负责人：王大寒

学科分类：F0605

资助金额：25.00

项目类别：青年科学基金项目

基于深度学习的场景文本检测和识别算法研究及应用

批准号：61503367

批准年份：2015

负责人：huangweilin

学科分类：F0605

资助金额：21.00

项目类别：青年科学基金项目

新疆民族多语种场景文本检测方法研究

批准号：61603323

批准年份：2016

负责人：周刚

学科分类：F0604

资助金额：17.00

项目类别：青年科学基金项目

基于跟踪的多方向场景文本检测

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

结直肠癌免疫治疗的多模态影像及分子影像评估

二维FM系统的同时故障检测与控制

田澍的其他基金

地域因素对证券投资基金投资决策的影响及其作用机制研究

相似国自然基金