包含识别错误的汉语文本检索研究

基本信息
批准号:60303005
项目类别:青年科学基金项目
资助金额:26.00
负责人:金奕江
学科分类:
依托单位:清华大学
批准年份:2003
结题年份:2006
起止时间:2004-01-01 - 2006-12-31
项目状态: 已结题
项目参与者:姜哲,张敏,吴天雷,林川,孙晓明,杨磊,彭潇,茹立云,路晶
关键词:
中文信息处理信息检索容错检索汉字识别数字化
结项摘要

本课题研究文档数字化过程中,经过扫描识别得到的包含一定错误的汉语文本上的全文检索理论与方法。现代社会正在迅速向信息化、网络化、数字化方向发展。我国也在向这个目标前进。在历史发展中积累了大量非数字化的文档资料图书等,这些文档资料中包含了丰富的有价值的信息。为使这些信息在现代社会中发挥应有的作用,就必须要将纸质文档数字化,常用的手段是文字识别。为了使用方便,还需要在数字化的文档上建立检索系统。而在识别过程中必然会有一定的错误发生。即使经过校对,仍然难以消除全部错误。而且人工校对需要花费大量的人力物力和时间。事实上,由于人脑有着很强的理解能力和纠错能力,含有一定错误的文本通常还是能够被人理解的。但是文本中的错误却给全文检索带来巨大的困难。这是因为传统的信息检索模型最基本的出发点就是词的索引和匹配。当需要匹配的词出现错误时,必然造成检索失败。因而,非常有必要研究在含有识别错误的文本上的有效检索方法

项目摘要

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
4

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021
5

基于Pickering 乳液的分子印迹技术

基于Pickering 乳液的分子印迹技术

DOI:10.1360/N972018-00955
发表时间:2019

金奕江的其他基金

相似国自然基金

1

基于语义分析的汉语文本错误自动侦测与纠错方法

批准号:61070119
批准年份:2010
负责人:张仰森
学科分类:F0211
资助金额:33.00
项目类别:面上项目
2

汉语字词识别的联结主义研究

批准号:39100045
批准年份:1991
负责人:朱晓平
学科分类:C0907
资助金额:3.50
项目类别:青年科学基金项目
3

面向新疆少数民族汉语语言学习的自动发音错误检测方法的研究

批准号:60965002
批准年份:2009
负责人:黄浩
学科分类:F0605
资助金额:24.00
项目类别:地区科学基金项目
4

声纹自动识别与不认人汉语语音识别

批准号:68675007
批准年份:1986
负责人:徐秉铮
学科分类:F0304
资助金额:5.00
项目类别:面上项目