Keyword spotting is to locate the instances in the document without accurate recognition of the document. The user can adjust the similarity threshold to balance the recall and the precision for fulfilling different needs. On the large database of multi-writer handwritten Chinese documents, this project investigates into text-query-based keyword spotting techniques including character classification, edge probability computation and word ranking. This project will improve the state-of-art methods and promote the real-life applications. The main contents are as follows: (1) proposing a keyword spotting method based on a hybrid model, which can extract the character feature using the deep convolutional neural networks (DCNN) and classify the candidate characters by the one-versus-all classifiers; (2) proposing a keyword spotting method with edge probability computation based on the high-order semi-Markov conditional random field (semi-CRF) model and the CRF functions include the DCNN character recognizer, the high-order language model and the geometric models; (3) building the topic model for estimating the query likelihoods given the document, and combining the query likelihoods with the matching scores to rank the spotted words.
手写文档检索是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以比文档识别找到更多有用的信息。本项目拟对中文手写文档检索中的字符识别器训练、边缘概率计算和候选词排序等关键问题进行深入研究,以达到改进已有方法、推动实际应用的目的。本项目的主要研究内容包括:(1)利用深度卷积神经网络和一对多分类器的混合模型实现基于字符识别器的检索方法,深度卷积神经网络可以更好的表示汉字的特征,而一对多分类器更适合检索这种两类分类问题;(2)利用高阶半马尔可夫条件随机场计算边缘概率,实现基于手写文本行识别的关键词检索,高阶半马尔可夫条件随机场的特征函数包括基于深度卷积神经网络的单字识别、高阶语言模型和几何模型;(3)训练主题模型,进行给定文档的关键词的似然估计,和关键词的匹配相似度进行集成,对检索到的候选词进行排序。
手写文档检索是在不需要对文档进行精确识别的情况下,计算关键词和文档中候选词之间的相似度,通过调节相似度的阈值来平衡召回率和精度,这样做可以比文档识别找到更多有用的信息。本项目以手写文档检索的关键技术为研究目标,以推动实际应用为目的,在大规模手写文档数据库中,实现准确高效的关键词检索。本项目的主要研究内容包括:利用高阶半马尔可夫条件随机场计算边缘概率,实现基于手写文本行识别的关键词检索,高阶半马尔可夫条件随机场的特征函数包括单字识别、高阶语言模型和几何模型;利用代理字符对关键词进行检索,把关键词中每个字的易混淆字符作为代理字,这样可以克服字符串识别错误的影响;训练主题模型,计算词向量和主题的向量表示,实现文本分类的创新性研究,为以后手写文档的语义分类和检索打下基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
路基土水分传感器室内标定方法与影响因素分析
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
基于细粒度词表示的命名实体识别研究
基于FTA-BN模型的页岩气井口装置失效概率分析
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
自然书写的脱机中文手写文档识别与检索
中文手写文档识别中高阶上下文建模方法研究
基于关键词多特征融合的维吾尔文文档图像检索
面向大规模XML文档集的关键词检索系统关键技术研究