中文手写文档关键词检索的理论与方法研究

基本信息
批准号:61403385
项目类别:青年科学基金项目
资助金额:25.00
负责人:张恒
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2014
结题年份:2017
起止时间:2015-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:王鹏,许家铭,周世玉,李长亮,宋利,吴玉芳
关键词:
边缘概率候选词排序中文手写文档关键词检索字符分类器
结项摘要

Keyword spotting is to locate the instances in the document without accurate recognition of the document. The user can adjust the similarity threshold to balance the recall and the precision for fulfilling different needs. On the large database of multi-writer handwritten Chinese documents, this project investigates into text-query-based keyword spotting techniques including character classification, edge probability computation and word ranking. This project will improve the state-of-art methods and promote the real-life applications. The main contents are as follows: (1) proposing a keyword spotting method based on a hybrid model, which can extract the character feature using the deep convolutional neural networks (DCNN) and classify the candidate characters by the one-versus-all classifiers; (2) proposing a keyword spotting method with edge probability computation based on the high-order semi-Markov conditional random field (semi-CRF) model and the CRF functions include the DCNN character recognizer, the high-order language model and the geometric models; (3) building the topic model for estimating the query likelihoods given the document, and combining the query likelihoods with the matching scores to rank the spotted words.

手写文档检索是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以比文档识别找到更多有用的信息。本项目拟对中文手写文档检索中的字符识别器训练、边缘概率计算和候选词排序等关键问题进行深入研究,以达到改进已有方法、推动实际应用的目的。本项目的主要研究内容包括:(1)利用深度卷积神经网络和一对多分类器的混合模型实现基于字符识别器的检索方法,深度卷积神经网络可以更好的表示汉字的特征,而一对多分类器更适合检索这种两类分类问题;(2)利用高阶半马尔可夫条件随机场计算边缘概率,实现基于手写文本行识别的关键词检索,高阶半马尔可夫条件随机场的特征函数包括基于深度卷积神经网络的单字识别、高阶语言模型和几何模型;(3)训练主题模型,进行给定文档的关键词的似然估计,和关键词的匹配相似度进行集成,对检索到的候选词进行排序。

项目摘要

手写文档检索是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以比文档识别找到更多有用的信息。本项目以手写文档检索的关键技术为研究目标,以推动实际应用为目的,在大规模手写文档数据库中,实现准确高效的关键词检索。本项目的主要研究内容包括:利用高阶半马尔可夫条件随机场计算边缘概率,实现基于手写文本行识别的关键词检索,高阶半马尔可夫条件随机场的特征函数包括单字识别、高阶语言模型和几何模型;利用代理字符对关键词进行检索,把关键词中每个字的易混淆字符作为代理字,这样可以克服字符串识别错误的影响;训练主题模型,计算词向量和主题的向量表示,实现文本分类的创新性研究,为以后手写文档的语义分类和检索打下基础。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

路基土水分传感器室内标定方法与影响因素分析

路基土水分传感器室内标定方法与影响因素分析

DOI:10.14188/j.1671-8844.2019-03-007
发表时间:2019
2

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制

DOI:
发表时间:2018
3

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
4

基于FTA-BN模型的页岩气井口装置失效概率分析

基于FTA-BN模型的页岩气井口装置失效概率分析

DOI:10.16265/j.cnki.issn1003-3033.2019.04.015
发表时间:2019
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

张恒的其他基金

批准号:59575014
批准年份:1995
资助金额:10.00
项目类别:面上项目
批准号:31860211
批准年份:2018
资助金额:41.00
项目类别:地区科学基金项目
批准号:31401585
批准年份:2014
资助金额:26.00
项目类别:青年科学基金项目
批准号:61663010
批准年份:2016
资助金额:41.00
项目类别:地区科学基金项目
批准号:81902402
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:10472106
批准年份:2004
资助金额:28.00
项目类别:面上项目
批准号:41506102
批准年份:2015
资助金额:22.00
项目类别:青年科学基金项目
批准号:61503147
批准年份:2015
资助金额:21.00
项目类别:青年科学基金项目
批准号:20972119
批准年份:2009
资助金额:34.50
项目类别:面上项目
批准号:21206179
批准年份:2012
资助金额:25.00
项目类别:青年科学基金项目
批准号:19072033
批准年份:1990
资助金额:3.00
项目类别:面上项目
批准号:61165007
批准年份:2011
资助金额:51.00
项目类别:地区科学基金项目
批准号:59375194
批准年份:1993
资助金额:7.00
项目类别:面上项目
批准号:51508477
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81472351
批准年份:2014
资助金额:80.00
项目类别:面上项目
批准号:20702040
批准年份:2007
资助金额:10.00
项目类别:青年科学基金项目
批准号:19972063
批准年份:1999
资助金额:16.00
项目类别:面上项目
批准号:81100537
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:81001117
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:81500672
批准年份:2015
资助金额:18.00
项目类别:青年科学基金项目
批准号:41902242
批准年份:2019
资助金额:25.00
项目类别:青年科学基金项目
批准号:81001121
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:61873106
批准年份:2018
资助金额:63.00
项目类别:面上项目
批准号:21272180
批准年份:2012
资助金额:80.00
项目类别:面上项目

相似国自然基金

1

自然书写的脱机中文手写文档识别与检索

批准号:60933010
批准年份:2009
负责人:刘成林
学科分类:F0210
资助金额:200.00
项目类别:重点项目
2

中文手写文档识别中高阶上下文建模方法研究

批准号:61305005
批准年份:2013
负责人:王秋锋
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
3

基于关键词多特征融合的维吾尔文文档图像检索

批准号:61563052
批准年份:2015
负责人:库尔班·吾布力
学科分类:F0304
资助金额:39.00
项目类别:地区科学基金项目
4

面向大规模XML文档集的关键词检索系统关键技术研究

批准号:61170091
批准年份:2011
负责人:邓志鸿
学科分类:F0211
资助金额:57.00
项目类别:面上项目