手写文档分析技术在表单识别、邮政地址识别、个人笔记识别与检索等方面具有广阔的应用前景。然而,由于技术和性能的限制,手写汉字识别的应用还只限于书写规范、字符集较小或语言约束严格的场合。本项目研究"自然书写"的脱机中文手写文字和文档识别与检索方法,解决手写文档自动处理中的瓶颈问题,尤其是行楷和行书的字符识别和连续书写文本的识别与检索问题,促进文字识别技术的应用。研究内容包括:手写样本库建设与共享,手写文档版面分析,手写汉字识别的归一化、特征提取和选择、分类器设计与置信度估计,手写字符串识别,书写人适应和语言模型适应,手写文档检索等。将提出一系列创新性的、有效的手写汉字识别、文档识别与检索方法,实质性地提高手写文档识别的性能;在国内外权威刊物和学术会议上发表一系列有影响的学术论文;发布一个大规模手写字符和连续书写文本的数据库并组织手写识别的竞赛;研制一个手写表单识别的原型系统。
本项目面向自然书写的脱机中文手写文档识别与检索,从数据库建设与共享、单字识别、文本行识别、模型自适应、关键词检索等方面开展了深入的研究工作。主要成果如下:..首先,建设和公开了一个中文手写文档标记工具,在此基础上收集和标注大规模手写文档数据库。公开发布了1020人书写的联机和脱机手写字符及连续书写文本数据库,其中联机和脱机数据库各包括约390万个单字样本和135万个手写文本样本。利用此数据库,组织了三次中文手写识别竞赛,竞赛刺激了识别性能的快速提升,推动了领域的发展。..在手写汉字识别方面,在新的样本数据库上对代表性方法进行了性能评价,给今后的研究树立了标杆。从字符图像预处理、特征提取、分类器学习与适应等角度提高识别性能。提出了一种基于视觉单词(Visual word)密度均衡化的非线性归一化方法,提出一种基于关键区域提取的相似字判别方法和基于样本选择及重要度加权的MQDF(修正二次判别函数)分类器判别学习方法,并通过大规模数据DLQDF(判别学习二次判别函数)训练提高了手写汉字识别精度。在分类器适应方面,提出了可用于大类别集的基于风格迁移映射的自适应方法和基于书写风格归一化的Pattern field分类方法,利用文档中字符风格一致性提高分类精度。..针对文本行(字符串)识别这个核心问题,提出了基于贝叶斯理论优化路径评价与搜索的中文手写文本识别方法,在大规模手写数据库的实验中取得了91%以上的字符切分和识别正确率,远远高于以前发表的最好结果。提出了基于Semi-Markov条件随机场的字符串识别方法,用概率图模型融合字符分类器和上下文特征,得到更高的识别性能。提出和实现了联机手写输入的动态分割和实时识别方法,在书写过程中实时切分和识别文字并快速得到整句识别结果。提出了基于多模型的语言模型自适应方法,进一步提高了文本行识别正确率。..在手写文档检索方面,提出一种基于One-vs-All分类器的关键词检索方法和融合上下文词模型的关键词检索方法。利用手写文本行识别的候选切分-识别网络和N-Best路径,提出基于字符置信度估计和基于Semi-Markov条件随机场的关键词检索方法。..上述研究成果使中文手写文档识别和检索的水平和性能向前推进了一大步,尤其是手写文本行识别的性能取得突破性进展。相关技术已在银行支票字符串识别中取得实际应用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中文手写文档关键词检索的理论与方法研究
中文手写文档识别中高阶上下文建模方法研究
脱机汉字手写行书的识别方法
脱机手写藏文字符识别研究