Text detection and recognition in complex background is an important research topic in the field of artificial intelligence and computer vision. Traditional text detection and recognition methods usually are based on Convolutional Neural Network. Although CNN can effectively extract the low dimensional characteristics of single modal data, it loses lots of information during computational process, and cannot utilize the correlation between multiple modalities at the semantic level. Thus these methods are unable to meet the requirements on precision in real world applications. This research explores the method to build fusion models of Capsule Network and other deep learning methods for multi-modal data which is composed of image, character and text. This method can not only achieve more efficient extraction of text features, but also make full use of high-level semantic relations of multi-modal data to improve the precision of text recognition in complex backgrounds. The following three specific aspects are included: 1) we will study the way to perform data feature extraction for visual character based on the Capsule Network; 2) we will study the way to build Capsule Network model which is suitable for multi-modal data association; 3) we will study the way to build multi-deep network model for multi-modal data fusion. The finding of this work can not only be applied to character recognition in complex background, improve the precision of recognition, but also promote development of character positioning, character recognition and multi-modal data processing.
复杂背景中的文字检测与识别是人工智能与计算机视觉领域的重要研究课题。传统的文字检测与识别方法一般基于卷积神经网络来构建模型,尽管卷积神经网络能有效地提取单模态数据的低维特征,但计算过程会损失大量信息,更无法利用背景图像、文字和目标文本所构成的多模态数据在语义层面的关联,因而完全无法满足各种实际应用的需求。本项目研究以胶囊网络等深度学习方法构建多网络深度模型来对图像、文字和文本多模态数据进行融合处理的方法,它不仅能实现对文字特征更有效的提取,还能充分利用多模态数据的高层语义联系,从而提升复杂背景中的文字识别的准确率。研究具体包括以下三个方面:1)基于胶囊网络的视觉文字特征提取;2)面向多模态数据关联的胶囊网络模型;3)多模态数据融合处理的多深度网络模型。本研究成果不仅能直接应用于复杂背景中的文字识别,提升识别的准确率,也能为字符定位,文字识别和多模态数据处理等技术的发展起到一定推动作用。
复杂背景中的文字检测与识别是以机器视觉的角度从图像中抽取和理解文字信息的一种技术,是人工智能与计算机视觉中的一个重要领域。目前的图像文字分析方法将背景图像中的文字作为图像这种单模态数据进行处理,未能有效地利用文字构成文本后的上层语义信息,而复杂背景中的视觉文字作为典型的跨媒体数据,需要适应其特征的有效的多模态数据处理方法。传统的文字检测与识别方法一般基于卷积神经网络来构建模型,尽管卷积神经网络能有效地提取单模态数据的低维特征,但计算过程会损失大量信息,更无法利用背景图像、文字和目标文本所构成的多模态数据在语义层面的关联,因而完全无法满足各种实际应用的需求。本项目研究以胶囊网络等深度学习方法构建多网络深度模型来对图像、文字和文本多模态数据进行融合处理的方法,它不仅能实现对文字特征更有效的提取,还能充分利用多模态数据的高层语义联系,从而提升复杂背景中的文字识别的准确率。研究具体包括以下三个方面:1)基于胶囊网络的视觉文字特征提取;2)面向多模态数据关联的胶囊网络模型;3)多模态数据融合处理的多深度网络模型。本研究成果不仅能直接应用于复杂背景中的文字识别,提升识别的准确率,也能为字符定位,文字识别和多模态数据处理等技术的发展起到一定推动作用。项目执行期间培养了该方向硕士研究生18名。项目组取得了诸多学术成果,在国际国内高水平学术期刊上发表了21篇论文,获得国家发明专利授权8项。所形成的基于优化的胶囊网络、知识表征及多深度神经网络进行文本、文本图像与背景图像融合处理的相关研究成果,能用于支撑云端与客户端的文本与图片分析的机器学习模型库。此外,项目成果还可广泛应用于日常机器视觉应用、智能图像分析、视频分析等方面,为提升相关领域的智能化水平提供技术支撑。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于多模态数据融合的脑肿瘤非监督识别方法研究
基于多模态大数据的复杂环境动态目标检测方法研究
基于多模态的异常信号检测与自适应处理
基于多模态数据融合的室内定位与导航研究