Tibetan has a long history and splendid culture. Thousands of Tibetan ancient books are important parts of Chinese culture and also the precious cultural heritage of mankind. Unfortunately, most of the ancient books are more or less broken and damaged by age, and the characters in the books become blurred and indecipherable. The papers of some books are so fragile that even turning a page becomes too hard. Thus, there is an urgent need to protect and collate the existing manuscripts. The goal of the project is to provide technical support for the digital protection of Tibetan ancient books. Based on detailed analysis on the Tibetan historical documents and processing that improving their image quality, the program proposes a layout analysis model that provides a structural description of the digital image document page in which Tibetan text, headline, image, graphic or table, etc are segmented into different attributes region. A new segmentation model will be built in the program with high accuracy, corresponds to the number of lines, the number of columns per line, according to the complex characteristics of the ancient Tibetan handwritten and woodcut literature for the text region. By sampling the character component in ancient Ucen Khyungyik document image, a synthesis method of character sample database for Ucen Khyungyik Tibetan, big character set including modern Tibetan and Sanskrit transliteration will be created in the program, in order to increase the diversity of character sample and improve the adaptability for the ancient texts. Furthermore, the program will also study the features representation method of multi-characteristics fusion on Tibetan big character set, training the classification model having a good capacity on the identification and robustness. At last, a system will be designed and implemented, which performs a fully automated conversion of Tibetan manuscripts into the corresponding electronic format and provides effective search capabilities.
藏族有悠久的历史和灿烂的文化,藏文古籍浩如烟海仅次于汉文,是中华文化重要的组成部分,也是珍贵的人类文化遗产。但是,由于年代久远,大部分古籍存在模糊、纸张疏松、断裂和破损,有些甚至不能翻阅,亟待抢救和整理。本项目的目标就是为藏文古籍的数字化保护提供技术支持。在对古籍样本图像深入分析和处理从而提高图像质量的基础上,本研究提出将古籍页面图像分割为文本、图像、图形或表格等不同属性区域的版面分析方法;根据古籍手写和木刻的复杂文本特征,构建具有较高准确率的文本区域行、字切分算法模型;通过乌金体古籍文本字符图像的部件采样,创建基于部件图像的乌金体藏文、梵音藏文大字符集样本库合成方法,解决字符样本的多样性和对藏文古籍文字识别的适应性;研究多特征融合的大字符集藏文特征表示方法,训练具有较强鉴别能力和鲁棒性的分类模型;设计和实现一个藏文古籍识别系统,将藏文古籍自动转换为相应的电子格式并进行有效的检索。
藏族有悠久的历史和灿烂的文化,是中华文化重要的组成部分,记录着藏族文化的史书典籍是珍贵的人类文化遗产。但是,由于年代久远,大部分藏文古籍存在模糊、断裂和破损,亟待抢救、整理和透彻的数字化。本项目为藏文古籍的数字化保护提供技术支持,在深入分析藏文古籍文本图像特点的基础上,展开了如下研究:. (1)藏文古籍文本的图像预处理与版面分析:针对图像预处理中的二值化问题,从不同角度提出了四种二值化算法,包括基于Lab颜色空间的自动分块二值化方法、结合边缘及对比度信息的二值化方法、多分支神经网络的二值化方法和改进的Attention U-Net的二值化方法,这些方法可以较好地完成藏文古籍文档图像的二值化。在版面分析方面,提出了基于DeepLab、SOLO模型的版面分析方法,能够以不同粒度准确地对藏文古籍的版面布局进行分析。. (2)藏文古籍图像的文本行、字切分:对乌金体藏文古籍文档图像行切分进行了深入的研究,提出了三种准确的行切分方法,包括基于轮廓曲线跟踪的行切分方法、基于基线信息的行切分方法和结合局部基线与连通域信息的文本行切分算法。为了应对古籍中字符笔画交叠、粘连和断裂等挑战,提出了一种基于关键特征信息的古籍文档图像字符切分方法,该方法能够有效解决藏文古籍文档图像字符切分问题,为研究藏文古籍文档的其他环节提供了字符数据支撑。. (3)“古籍藏文”乌金体字丁样本库的生成:开发了相应的软件系统,可以依据不同的需要构建不同存储方式和存储格式的乌金体古籍字丁样本库;提出了一种依靠文本构建“古籍藏文”乌金体字丁样本库的方法,可以高效地完成对字符图像的文本标注。. (4)“古籍藏文”特征提取与识别:提出了基于CRNN的藏文古籍文本行端到端的识别方法,该方法可以避免字切分问题,实现文本行图像到文本序列的转换。 .在本课题的资助下,发表相关论文25篇,其中SCI 9篇、CSCD核心板3篇。申请发明专利7项、软件著作权11项。培养了博士生5人,硕士生10人。总的来说,项目在一定程度上拓展了文档分析与识别领域的广度和深度,较为圆满地完成了预期目标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
藏文字型生成与识别
基于参数自适应调整的退化藏文古籍图像二值化算法研究
图文混合笔输入文档分析与识别的理论与方法研究
木刻印刷蒙古文古籍识别与检索技术的研究