本课题研究文档数字化过程中,经过扫描识别得到的包含一定错误的汉语文本上的全文检索理论与方法。现代社会正在迅速向信息化、网络化、数字化方向发展。我国也在向这个目标前进。在历史发展中积累了大量非数字化的文档资料图书等,这些文档资料中包含了丰富的有价值的信息。为使这些信息在现代社会中发挥应有的作用,就必须要将纸质文档数字化,常用的手段是文字识别。为了使用方便,还需要在数字化的文档上建立检索系统。而在识别过程中必然会有一定的错误发生。即使经过校对,仍然难以消除全部错误。而且人工校对需要花费大量的人力物力和时间。事实上,由于人脑有着很强的理解能力和纠错能力,含有一定错误的文本通常还是能够被人理解的。但是文本中的错误却给全文检索带来巨大的困难。这是因为传统的信息检索模型最基本的出发点就是词的索引和匹配。当需要匹配的词出现错误时,必然造成检索失败。因而,非常有必要研究在含有识别错误的文本上的有效检索方法
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于Pickering 乳液的分子印迹技术
基于语义分析的汉语文本错误自动侦测与纠错方法
汉语字词识别的联结主义研究
面向新疆少数民族汉语语言学习的自动发音错误检测方法的研究
声纹自动识别与不认人汉语语音识别