本课题研究文档数字化过程中,经过扫描识别得到的包含一定错误的汉语文本上的全文检索理论与方法。现代社会正在迅速向信息化、网络化、数字化方向发展。我国也在向这个目标前进。在历史发展中积累了大量非数字化的文档资料图书等,这些文档资料中包含了丰富的有价值的信息。为使这些信息在现代社会中发挥应有的作用,就必须要将纸质文档数字化,常用的手段是文字识别。为了使用方便,还需要在数字化的文档上建立检索系统。而在识别过程中必然会有一定的错误发生。即使经过校对,仍然难以消除全部错误。而且人工校对需要花费大量的人力物力和时间。事实上,由于人脑有着很强的理解能力和纠错能力,含有一定错误的文本通常还是能够被人理解的。但是文本中的错误却给全文检索带来巨大的困难。这是因为传统的信息检索模型最基本的出发点就是词的索引和匹配。当需要匹配的词出现错误时,必然造成检索失败。因而,非常有必要研究在含有识别错误的文本上的有效检索方法
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于改进LinkNet的寒旱区遥感图像河流识别方法
信息熵-保真度联合度量函数的单幅图像去雾方法
高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析
城市生活垃圾热值的特征变量选择方法及预测建模
基于语义分析的汉语文本错误自动侦测与纠错方法
面向新疆少数民族汉语语言学习的自动发音错误检测方法的研究
汉语字词识别的联结主义研究
声纹自动识别与不认人汉语语音识别