面向移动阅读的复杂文档图像理解方法研究

基本信息

批准号：61300061

项目类别：青年科学基金项目

资助金额：23.00

负责人：王勇涛

学科分类：

依托单位：北京大学

批准年份：2013

结题年份：2016

起止时间：2014-01-01 - 2016-12-31

项目状态：已结题

项目参与者：汤帜,Ching Y· Suen,李鹿原,郑金鑫,刘冬,曲丞

关键词：

能量最小化方法复杂文档图像理解移动阅读

结项摘要

How to automatically convert entertaining publications such as comic books and sports magazines into digital contents that are suitable to display on mobile devices is the bottleneck problem of mobile reading. Complex document image understanding aims to solve this problem by automatically detecting each object that composes the whole image page and then indentifying their reading orders. The existing document image understanding methods are specifically designed to process the document images mainly composed of texts, and solely exploit certain image processing algorithm, thus can't handle such kind of complex document image which mainly consists of graphics with complex layout. This project aims to propose a new more general and efficient document image understanding method by using the methodology of the state-of-the-art natural image understanding and the energy minimization method. In detail, the proposed method shall conduct the tasks of object detection and joint recognition for multiple detected objects by developing the new energy minimization function and the corresponding optimization algorithms. It is expected to overcome the drawbacks of the existing document understanding method, and provide key technical support for producing mobile reading contents, thus promote the development of both domestic and foreign mobile reading markets. Therefore, this project has great scientific significance and economical values.

如何自动地将漫画书、文娱和体育类报刊等复杂版面出版物制作成适合于移动阅读的数字内容，是目前移动阅读发展所面临的瓶颈问题。复杂文档图像理解的目的,是实现这类出版物页面图像各构成对象的自动提取以及它们的阅读先后顺序的自动辨识，从而解决该瓶颈问题。现有的文档图像理解方法通常针对以文字为主体的文档图像，孤立地使用某个图像分析处理算法，局限性较大，无法处理这类包含大量的图形图像而且排版布局相对复杂的文档图像。本项目拟借鉴当前自然图像理解方法，使用能量最小化模型，研究一种更为通用有效的复杂文档图像理解方法。具体地，本项目将通过设计新的能量最小化函数及相应的优化算法，充分地使用相关先验知识，完成复杂文档图像理解中的多种构成对象提取任务以及不同构成对象联合识别任务。本项目研究成果将弥补现有文档图像理解方法的缺陷，为移动阅读内容制作提供关键技术支持，促进国内外移动阅读发展，因此本项目具有十分重要的研究意义。

项目摘要

本项目结合移动阅读内容制作和展示等需求，对漫画、报刊、立体几何教材等复杂文档图像理解问题开展了相关研究，主要完成了四个方面的工作：1)实验数据收集、标记与评价方法研究，2)复杂文档图像构成对象识别算法研究，3)复杂文档图像构成对象的联合识别算法研究，4)阅读顺序辨识方法研究。.在复杂文档构成对象提取方面，我们首先研究提出了高效鲁棒的边缘链、直线段、多边形、圆/圆弧、椭圆/椭圆弧几种底层视觉模式的提取算法，可适用于复杂文档图像和自然图像。在此基础上，结合条件随机场和深度学习等机器学习算法，我们研究提出了复杂文档图像构成对象的识别算法。特别地，针对漫画分镜分割问题，提出了基于树状条件随机场融合多种特征的分镜分割方法以及基于深度学习的分镜分割算法，在大规模数据测试集上取得了非常好的实验结果。我们还研究提出了基于单幅立体几何教材插图图像的立体几何对象识别与重建算法，在鲁棒和实用性方面均优于现有方法。.在前述的各类构成对象识别算法基础上，我们还研究了不同对象之间的联合识别算法。针对漫画图像，我们利用分镜和对白的关联关系建立树状层级、构建特殊的能量函数，通过求解能量函数，得到分镜四边形和对白包围框的标记结果，从而识别出漫画页面中的分镜和对白。实验结果表明，该方法对分镜、气泡的识别效果有明显的提高。针对报刊、杂志、教材等页面图像，我们还研究提出了基于条件随机场模型利用上下文关系联合识别标题、正文、插图、插图标题的方法，有效地提升了识别效果。针对立体几何对象识别与三维重建问题，我们还提出了融合插图信息与插图关联的题干文字信息的方法，显著提高了识别和重建效果。.我们提出了一种基于镜之间相对几何位置关系的分镜阅读顺序辨识方法，能够非常有效地得到分镜阅读顺序。.我们在 Pattern Recognition等国际SCI期刊上、MM、JCDL等国际学术会议上发表了论文11篇，申请发明专利2项、获批软件著作权1项，说明本项目研究成果具有较高的应用价值和学术价值。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.11834/jrs.20209060

发表时间：2020

DOI：10.3969/j.issn.1002-0268.2020.03.007

发表时间：2020

DOI：

发表时间：2020

DOI：10.11999/JEIT210095

发表时间：2021

DOI：10.19650/j.cnki.cjsi.J2007019

发表时间：2021

王勇涛的其他基金

批准号：61673029

批准年份：2016

资助金额：60.00

项目类别：面上项目

相似国自然基金

面向复杂问题的汉语阅读理解研究

批准号：61673248

批准年份：2016

负责人：谭红叶

学科分类：F03

资助金额：61.00

项目类别：面上项目

复杂背景下的多行文档图像检索技术研究

批准号：61662076

批准年份：2016

负责人：阿不都萨拉木·达吾提

学科分类：F0605

资助金额：42.00

项目类别：地区科学基金项目

面向图像语义理解的对抗机器学习理论与方法

批准号：61876130

批准年份：2018

负责人：韩亚洪

学科分类：F0604

资助金额：64.00

项目类别：面上项目

阅读理解与认知资源优化

批准号：39870278

批准年份：1998

负责人：崔耀

学科分类：C0907

资助金额：11.00

项目类别：面上项目

面向移动阅读的复杂文档图像理解方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

内点最大化与冗余点控制的小型无人机遥感图像配准

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

气载放射性碘采样测量方法研究进展

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

基于全模式全聚焦方法的裂纹超声成像定量检测

王勇涛的其他基金

线条图像理解方法研究

相似国自然基金