包含识别错误的汉语文本检索研究

基本信息
批准号:60303005
项目类别:青年科学基金项目
资助金额:26.00
负责人:金奕江
学科分类:
依托单位:清华大学
批准年份:2003
结题年份:2006
起止时间:2004-01-01 - 2006-12-31
项目状态: 已结题
项目参与者:姜哲,张敏,吴天雷,林川,孙晓明,杨磊,彭潇,茹立云,路晶
关键词:
中文信息处理信息检索容错检索汉字识别数字化
结项摘要

本课题研究文档数字化过程中,经过扫描识别得到的包含一定错误的汉语文本上的全文检索理论与方法。现代社会正在迅速向信息化、网络化、数字化方向发展。我国也在向这个目标前进。在历史发展中积累了大量非数字化的文档资料图书等,这些文档资料中包含了丰富的有价值的信息。为使这些信息在现代社会中发挥应有的作用,就必须要将纸质文档数字化,常用的手段是文字识别。为了使用方便,还需要在数字化的文档上建立检索系统。而在识别过程中必然会有一定的错误发生。即使经过校对,仍然难以消除全部错误。而且人工校对需要花费大量的人力物力和时间。事实上,由于人脑有着很强的理解能力和纠错能力,含有一定错误的文本通常还是能够被人理解的。但是文本中的错误却给全文检索带来巨大的困难。这是因为传统的信息检索模型最基本的出发点就是词的索引和匹配。当需要匹配的词出现错误时,必然造成检索失败。因而,非常有必要研究在含有识别错误的文本上的有效检索方法

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

DOI:
发表时间:
2

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

DOI:10.6041/j.issn.1000-1298.2022.07.022
发表时间:2022
3

信息熵-保真度联合度量函数的单幅图像去雾方法

信息熵-保真度联合度量函数的单幅图像去雾方法

DOI:10.3724/SP.J.1089.2019.17435
发表时间:2019
4

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

DOI:10.7498/aps.68.20181682
发表时间:2019
5

城市生活垃圾热值的特征变量选择方法及预测建模

城市生活垃圾热值的特征变量选择方法及预测建模

DOI:10.11936/bjutxb2021010011
发表时间:2021

金奕江的其他基金

相似国自然基金

1

基于语义分析的汉语文本错误自动侦测与纠错方法

批准号:61070119
批准年份:2010
负责人:张仰森
学科分类:F0211
资助金额:33.00
项目类别:面上项目
2

面向新疆少数民族汉语语言学习的自动发音错误检测方法的研究

批准号:60965002
批准年份:2009
负责人:黄浩
学科分类:F0605
资助金额:24.00
项目类别:地区科学基金项目
3

汉语字词识别的联结主义研究

批准号:39100045
批准年份:1991
负责人:朱晓平
学科分类:C0907
资助金额:3.50
项目类别:青年科学基金项目
4

声纹自动识别与不认人汉语语音识别

批准号:68675007
批准年份:1986
负责人:徐秉铮
学科分类:F0304
资助金额:5.00
项目类别:面上项目