According characteristics of Xinjiang, the project focuses on Xinjiang nationality multi-script scene text detection method research for the demand of multi-script character recognition and machine translation. Based on the human visual hierarchical cognitive mechanism, the project researches on the hierarchical organization and coordinating cognition for the multi-script text visual object, which combines the visual information and the task-based information, and apply to the multi-script scene text detection. Three contributions are given in this project: 1) combining the detection task and the scene images, the project organizes the multi-script scene text into multilayer visual representations. 2) Through the ordered propagation in multilayer cognition, the project provides a novel solution for the information transmission on the hierarchical visual objects. 3) The assumption on the cognitive consistency overcomes the problem of parameter estimation under complex ordered structures. The technology for the project has important practical application value for the research on the multi-ethnic text machine translation system and visual handle devices, and is necessary for economic prosperity,regional stability and national unity in Xinjiang.
本项目根据新疆地区特点,针对多民族文字自动识别和机器翻译需求,研究新疆民族多语种场景文本图像检测方法。在方法上引入人类视觉层次认知机理,研究民族多语种文本视觉对象的分层组织和协同认知,把底层视觉信息与检测任务先验结合,解决多语种文本对象的鲁棒检测问题。其主要特点:1)将文本检测任务与场景图像结合,实现多语种文本视觉对象的多层次表示;2)层次间的认知结果有序传播,统一了不同视觉尺度的认知信息传递;3)对认知一致性假设,有效克服了复杂组织结构下参数难以估计的问题。本项目技术对新疆民族文字机器翻译系统、文字翻译视觉手持设备等研发具有重要的实际应用价值,是繁荣新疆经济、加强地区稳定和维护民族团结所需要的文字信息处理技术。
本项目开展文字自动识别和机器翻译的相关研究。在方法上引入人类视觉层次认知机理,研究文本视觉对象的分层组织和协同认知。其主要研究内容有:1)提出文本视觉对象的层次组织生成方法。我们开展了后处理文本视觉对象组织研究,在多个候选回归框中通过排序滤波方法来获取具有相关性的回归框,并在高斯分布的假设前提下来融合这些回归框。我们的这种方法,不需要通过数据进行训练,也无需加入新的网络结构,可以直接嵌入到任何一种目标检测框架中。2)提出层次间的认知有序传播,实现不同层次之间的信息互通。通过研究注意机制,将不同通道的特征图进行信息传播,实现特征图之间的协同,保证了场景文本显著性特征的提取。3)提出认知协同计算方法,在优化和参数估计方面取得突破。我们研究了基于集成学习的文本分类算法,通过对五种基分类器进行两种集成学习框架的分析,发现集成学习的策略可以优化整体性能。4)采集标注场景文本图像数据库并开发相关标注软件。我们采集并精选了500幅图像进行标注,标注内容细化成不同语种、连通成分等等。后续研究中,为了降低标注的成本,我们研究了基于手机端的半自动标注方法。通过指尖划动的方式,只需要大致标注出首尾两个点获取图像中大致的文字区域,并通过半自动化分析的方式,即连通成分提取和分析进一步获取最终精确的文字区域。综上所述,本研究为探究文字自动识别和机器翻译奠定了一定的基础,并为层次认知模型提供了重要的启示。项目主要贡献有EI检索论文1篇,核心期刊论文1篇,录用国际会议论文1篇,软件著作权1项,培养两名在读硕士研究生。项目投入经费17万元,支出2.412583万元,各项支出与预算相符,剩余经费14.054884万元将用于计划后续支出。
{{i.achievement_title}}
数据更新时间:2023-05-31
伴有轻度认知障碍的帕金森病~(18)F-FDG PET的统计参数图分析
基于全模式全聚焦方法的裂纹超声成像定量检测
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
多空间交互协同过滤推荐
维吾尔文自然场景文本检测与识别方法研究
面向社交媒体的多语种文本情感分析方法研究
基于跟踪的多方向场景文本检测
基于多信息融合的自然场景图像中的文本检测和识别方法研究