Due to the lack of content structure information for both fixed layout document and digital image document, this project focuses its research on several key algorithms of physical layout analysis and semantic logical understanding in document structure extraction, mainly including following points: (1) Graph based multi-layer and multi-scale segmentation algorithm on pages with complex layout, which processes text and non-text area in separated layers and segments document page in multi-layer perspective; (2) Performing logical labeling on segmented areas in layout analysis, through processes like establishing multimodel probability graph random field learning model to describe logical labels distribution, designing local and contextual features, constructing neighborhood system, training hierarchical conditional random field model, and finally recognizing logical labels; (3) Designing data formats for both raw document page and structured page, building sound ground-truth data set for performance evaluation. This project integrates technologies from fields of computer vision, image processing, machine learning and information extraction. It contributes to intellectual layout analysis and logical understanding, establishes the prerequisite preconditions for document content reflowing, provides important data foundation for semantic extraction at higher level and information reuse, and also enables the improvement of automation level on digital library and document production.
固定版式文档和数字化图像文档缺乏结构化信息,本课题拟研究文档结构信息提取中版面分析、逻辑理解若干关键算法,主要包括:(1)基于图的多层级版面分割算法,处理复杂版面布局的页面,对文本和非文本区域分层处理,并对文档页面进行多尺度的物理划分,解决规则式版面分割算法难以最优化的问题;(2)对多层级物理分割区域进行逻辑类别标注,搭建基于多模型概率图随机场学习模型,描述分割区域的逻辑标签分布,设计局部特征和上下文关系特征,构造邻域系统,训练层级条件随机场模型,识别文档逻辑标签;(3)设计页面原始文档和带结构信息文档的数据格式,构建完备基准数据集,并用于模型性能评估。本课题结合计算机视觉、图像处理、机器学习和信息抽取技术,推进版面智能分析理解技术研究,给文档流式化奠定前提条件,为深入的语义抽取及信息重用提供重要的数据基础,可提高数字图书馆和数字出版等内容制作系统的自动化水平。
项目背景:随着因特网技术和移动设备的飞速发展,电子文档在计算机和移动设备上的应用需求与日俱增。人们越来越习惯在计算机或移动终端上进行阅读。电子文档按照来源主要分为,从纸质文档转化而来的图像文档,以及从文档处理软件直接生成的版式文档。但图像文档和固定版式文档皆缺乏结构化信息,不包含文档内容的逻辑结构关系。对文档结构信息的自动提取已经引起研究领域和工业界的广泛关注。因此,本项目“多模型文档版面分析和理解算法研究”对改善电子阅读环境有着及其重要的实际意义。.研究内容:项目组研究了<1>模型驱动方法和数据驱动方法,及两者的混合方法,实现对文档图像的多级分割;<2>基于条件随机场和对抗网络的文档图像自动生成算法,以及人工构建文档图像数据集;<3>“PDF文档结构信息提取系统”原型;<4>基于膨胀卷积网络的端到端文档语义分割算法;<5>页面对象多实例分割算法;<6>基于特征增强的页面对象检测算法;<7>基于图的深度学习页面对象分割框架;<8>基于注意力机制的文档布局分析算法;<9>基于多模态的文档对象检测深度学习框架。.重要结论:项目组<1>实现对文档图像的多级分割;<2>实现了利用条件随机场和对抗网络的自动生成文档图像数据集;<3>研发的“PDF文档结构信息提取系统”原型,成功提取页面对象;<4>提出基于膨胀卷积的端到端文档语义分割算法,完成文档图像分割;<5>提出的页面对象多实例分割算法较其他算法而言,训练更有效;<6>提出的“基于特征增强的页面对象检测算法”有效地增强了页面对象特征;<7>提出的基于图的深度学习页面对象分割框架,能够有效检测页面对象之间的图关系;<8>提出的基于注意力机制的文档布局分析算法,有效完成文档图像页面对象检测;<9>提出的基于多模态的文档对象检测深度学习框架,有效将不同模态信息进行融合。.科学意义:近年来,诸多大型数字化项目正在开展中。Google图书搜索、百万册图书、古登堡计划等著名的数字化项目,都旨在以工业生产模式对海量图书资料进行数字转换。目前,这些项目的数字化过程均未能获得充分的结构信息。由于问题的复杂性以及文档的多样化,全面的结构信息无从取得。而带结构信息的元数据创建具有迫在眉睫的需求。因此,本项目的研究成果对实体书数字化转化进程有一定的实际价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基于谱主题模型的多文档自动摘要算法研究
基于词义的文档表示模型及多语亚文档主题分析研究
基于多源视频协同分析的大尺度群体事态理解和预测模型研究
面向移动阅读的复杂文档图像理解方法研究