How to automatically convert entertaining publications such as comic books and sports magazines into digital contents that are suitable to display on mobile devices is the bottleneck problem of mobile reading. Complex document image understanding aims to solve this problem by automatically detecting each object that composes the whole image page and then indentifying their reading orders. The existing document image understanding methods are specifically designed to process the document images mainly composed of texts, and solely exploit certain image processing algorithm, thus can't handle such kind of complex document image which mainly consists of graphics with complex layout. This project aims to propose a new more general and efficient document image understanding method by using the methodology of the state-of-the-art natural image understanding and the energy minimization method. In detail, the proposed method shall conduct the tasks of object detection and joint recognition for multiple detected objects by developing the new energy minimization function and the corresponding optimization algorithms. It is expected to overcome the drawbacks of the existing document understanding method, and provide key technical support for producing mobile reading contents, thus promote the development of both domestic and foreign mobile reading markets. Therefore, this project has great scientific significance and economical values.
如何自动地将漫画书、文娱和体育类报刊等复杂版面出版物制作成适合于移动阅读的数字内容,是目前移动阅读发展所面临的瓶颈问题。复杂文档图像理解的目的,是实现这类出版物页面图像各构成对象的自动提取以及它们的阅读先后顺序的自动辨识,从而解决该瓶颈问题。现有的文档图像理解方法通常针对以文字为主体的文档图像,孤立地使用某个图像分析处理算法,局限性较大,无法处理这类包含大量的图形图像而且排版布局相对复杂的文档图像。本项目拟借鉴当前自然图像理解方法,使用能量最小化模型,研究一种更为通用有效的复杂文档图像理解方法。具体地,本项目将通过设计新的能量最小化函数及相应的优化算法,充分地使用相关先验知识,完成复杂文档图像理解中的多种构成对象提取任务以及不同构成对象联合识别任务。本项目研究成果将弥补现有文档图像理解方法的缺陷,为移动阅读内容制作提供关键技术支持,促进国内外移动阅读发展,因此本项目具有十分重要的研究意义。
本项目结合移动阅读内容制作和展示等需求,对漫画、报刊、立体几何教材等复杂文档图像理解问题开展了相关研究,主要完成了四个方面的工作:1)实验数据收集、标记与评价方法研究,2)复杂文档图像构成对象识别算法研究,3)复杂文档图像构成对象的联合识别算法研究,4)阅读顺序辨识方法研究。.在复杂文档构成对象提取方面,我们首先研究提出了高效鲁棒的边缘链、直线段、多边形、圆/圆弧、椭圆/椭圆弧几种底层视觉模式的提取算法,可适用于复杂文档图像和自然图像。在此基础上,结合条件随机场和深度学习等机器学习算法,我们研究提出了复杂文档图像构成对象的识别算法。特别地,针对漫画分镜分割问题,提出了基于树状条件随机场融合多种特征的分镜分割方法以及基于深度学习的分镜分割算法,在大规模数据测试集上取得了非常好的实验结果。我们还研究提出了基于单幅立体几何教材插图图像的立体几何对象识别与重建算法,在鲁棒和实用性方面均优于现有方法。.在前述的各类构成对象识别算法基础上,我们还研究了不同对象之间的联合识别算法。针对漫画图像,我们利用分镜和对白的关联关系建立树状层级、构建特殊的能量函数,通过求解能量函数,得到分镜四边形和对白包围框的标记结果,从而识别出漫画页面中的分镜和对白。实验结果表明,该方法对分镜、气泡的识别效果有明显的提高。针对报刊、杂志、教材等页面图像,我们还研究提出了基于条件随机场模型利用上下文关系联合识别标题、正文、插图、插图标题的方法,有效地提升了识别效果。针对立体几何对象识别与三维重建问题,我们还提出了融合插图信息与插图关联的题干文字信息的方法,显著提高了识别和重建效果。.我们提出了一种基于镜之间相对几何位置关系的分镜阅读顺序辨识方法,能够非常有效地得到分镜阅读顺序。.我们在 Pattern Recognition等国际SCI期刊上、MM、JCDL等国际学术会议上发表了论文11篇,申请发明专利2项、获批软件著作权1项,说明本项目研究成果具有较高的应用价值和学术价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
内点最大化与冗余点控制的小型无人机遥感图像配准
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
基于全模式全聚焦方法的裂纹超声成像定量检测
面向复杂问题的汉语阅读理解研究
复杂背景下的多行文档图像检索技术研究
面向图像语义理解的对抗机器学习理论与方法
阅读理解与认知资源优化