With the increasing use of pen-based devices, users can input various heterogeneous structures such as text, drawings and table forms freely on a large writing area, with the trajectories captured and saved as ink documents. Nevertheless, accompanied with the convenience of input, the free and heterogeneous structures of ink documents bring new challenges to automatic processing. For ink document analysis, the ink strokes should be first grouped into structural units such as text lines and drawings, which are then recognized respectively. This project systemically investigates the representation and fusion methods of context information in ink document analysis based on conditional random fields (CRFs). The main contents are as follows: (1) text and non-text separation method based on the spatial context; (2) method of text line grouping from ink documents with complex layout; (3) character string recognition method based on high-order semi-Markov conditional random fields; (4) fast inference methods for high-order conditional random fields. This project will be conducted on the basis of our previous research, and most of the technology difficulties have been comprehensively evaluated. The research results will promote the application of pen-based devices。
随着平板电脑和数码笔等笔输入设备的广泛应用,用户能够在更大的界面上输入文本、绘制图形和表格,同时笔迹能够被这些设备捕获并保存成联机文档。但伴随着输入的便利性,无约束的自由书写也给联机文档的自动处理带来了挑战。要对联机手写文档进行分析,首先需要将页面分割成文档结构对象,例如文本行和图形,然后再对不同的对象分别进行识别。本项目基于条件随机场(CRF)模型,系统地对复杂版面联机手写文档分析与识别中多种上下文信息的表示与融合方法展开研究,具体内容包括:(1)基于空间上下文的图文分离方法;(2)复杂版面联机手写文档的文本行提取方法;(3)基于高阶半马尔科夫条件随机场(semi-CRF)的手写字符串识别方法;(4)高阶条件随机场的快速推断算法。该项目在前期扎实的工作基础上开展,针对研究中的难点设计了明确可行的技术路线。本研究内容新颖并具有广泛的应用前景和学术价值,研究成果将促进手写设备的推广与应用。
无约束的自由书写给手写文档的自动处理带来了挑战,对于手写文档的分析,首先要将文档分割成文档结构对象,然后再对不同的文档结构对象分别进行识别。本项目主要基于条件随机场(CRF)模型,针对手写文档分析与识别中的多个方面进行了系统地研究,具体包括:(1)基于空间上下文的文档版面分析方法;(2)文本行提取方法;(3)手写文本行识别方法;(4)关键词定位方法;(5)多种上下文信息的融合方法;(6)文档分析中的人机交互方法。取得的重要成果包括:(1)提出基于高阶半马尔科夫条件随机场(semi-CRF)的手写文本行识别方法,在2011年国际文档分析与识别会议(ICDAR 2011)手写中文文本行识别竞赛集(联机手写文本行数据)上的结果超过竞赛的最好成绩;(2)提出基于semi-CRF的关键词定位方法;(3)高阶semi-CRF的快速推断算法(为了减小参数训练的复杂度,提出前向-后向网格削减算法;为了加快解码速度,考察了三种集束搜索算法);(4)提出基于最小风险准则的semi-CRF训练方法并与多种准则进行了比较,包括 conditional log-likelihood (CLL)、softmax-margin (SMM)、minimum classification error (MCE)、large-margin MCE (LM-MCE)和 max-margin (MM);(5)通过融合神经网络语言模型提升文本行识别性能。本项目研究成果推进了手写文档分析与识别领域的发展,并将促进手写设备的推广与应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
响应面法优化藤茶总黄酮的提取工艺
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于图文法和图归纳理论采用众包技术的API文档集成研究
面向协同制图的地图文档长事务模型研究
图文混合跨媒体知识单元的模糊分类方法研究
中文手写文档关键词检索的理论与方法研究