在多字体汉英混排印刷文本识别实用化性能提高若干重要问题的研究获得重要进展,主要在⑴低质量印刷文本识别本的提高:核心在于汉字识别特征的提取,从理论上应提取高有效信息熵的特征,在实际上筛选出适合汉字识别高鲁棒性的特征,极大提高了低质量印刷文本的识别率。在体系结构上,采取多识别方案的综合集成方法,更进一步有效地提高了识别率和鲁棒性。⑵多文种混排文本的识别,最常迁到的是汉英混排队的双语文本识别,最佳识别方案是在混排文本首先进行语种的辨识和然后按不同语种分别进行纠字切分和不同语种的识别和后处理。进行文种的辨识,如汉字和英文的辨识主要依靠不同文字的统计特性的区别。研究成果为THOCR-94和THOCR-97多文种汉字识别系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
汉字识别研究中若干核心问题的新开拓
基于合成样本和MCE准则下判别学习的汉字手写文本识别研究
基于多种知识的脱机手写体汉字文本识别方法研究
以知识为基础的文本图像理解和汉字识别及处理的研究