This project combining the Uyghur language characteristics with actual application requirements will conduct the research of new theory and new technology for complex background suppresssion technologies, machine learning based key technologies for Uyghur text area localization and extraction from multi-row document images, and contex information fusion based word representation and match models for keyword detection algorithms ect. The results of this project will be used in civilian areas and information content security application fields, and not only can promote the pace of informatization and its level of western regions, also can play a major role in the country's "One Belt One Road" construction procedure. At the same time, it has great reference value on document image retrieval technology for other ethnic groups on the silk road and those belong to the same language family.
本课题从维吾尔语语言文字特点出发,紧密结合实际应用需求,以理论研究和实证研究相结合的方法开展多行维吾尔文文档图像中去除复杂背景的关键算法,基于机器学习的文本提取方法对不同背景下的多行文本区域定位与提取技术,以及在被分割的文本区域中进行关键词语搜索与匹配(其中,基于上下文融合的单词表示和匹配模型为重点研究内容)等关键技术研究。本项目研究成果可以推广到民用领域和信息内容安全领域,不仅能促进和提高本地区信息化步伐和水平,还可以在国家的“一带一路”建设中将发挥重大作用。同时,对于丝绸之路上的属于同一语系的其它民族语言文档图像检索技术研究中具有重大参考价值。
在数字化时代,文档图像高效、快速的检索技术变得越来越急迫。本项目首先扩建和修整了原有的数据集,增加了手写体文本行图片。由于数据收集上的困难并且现有数据集的数量有限,采用基于对抗式生成网络的脱机手写体生成模型。针对投影法的缺点,提出了两种改进的基于投影的文本行切分方法以解决短行和文本行倾斜的问题。分别在公开的英文数据集IAM、波兰文数据集和自建的维吾尔文数据集等三种不同语言的数据集上进行了实验,其召回率分别达到了98.43%、99.3%、92.06%。其次,对于文本行切分提出了两种算法分别为类池化操作算法和基于投影的行提取算法。采用224个文本行进行切分实验最终得出基于动态阈值投影法方法平均正确率为87.5%,而基于K-means聚类法平均正确率为70.9%。针对字词切分本文也提出了两种算法分别基于MSER的二维聚类算法进行汉文切分和FCM融合K-means的聚类算法对维吾尔单词进行切分。实验对象为不同人书写的文本图像一共1042个单词,正确切分率达到74.28%。该方法不仅提高了切分的正确率,并且可以同时解决部分重叠和粘连问题。由于在自然场景图像中,文本图像不仅仅有水平的,还有多方向的倾斜文本图像。利用旋转矩形的几何性质进行目标区域的位置回归,设计符合多边形的NMS算法,考虑了特征融合思想。通过实验,相对于SSD算法,提出的方法可以较为准确地进行多方向的自然场景文本检测。针对自然场景多方向文本研究提出了改进的多方向文本区域检测算法Yolo。实验结果表明,改进的文本检测算法在自然场景多方向维吾尔文场景文字区域检测任务中具有很好的鲁棒性和应用性。从基于内容的图像检索中出发运用局部特征中的角点检测对关键字进行检索。在匹配检索的准确率和召回率分别为98%和87.5%,再用RANSAC算法,剔除了误匹配点,使得匹配率得以提升。还对印刷体的维吾尔文进行了检索,利用连通区域像素点周长的方法区分关键词与匹配词,也对以后进行大规模的维吾尔文数据库检索的研究提供了新的思路。最后,搭建了印刷体文档图像关键词检索实验平台。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
古戏台传音的秘密
基于深度学习的满文文档图像检索关键技术研究
基于关键词多特征融合的维吾尔文文档图像检索
交互模式下的图像语义检索技术研究
面向移动阅读的复杂文档图像理解方法研究