多方法融合的蒙古文古籍图像检索技术研究

基本信息
批准号:61463038
项目类别:地区科学基金项目
资助金额:46.00
负责人:魏宏喜
学科分类:
依托单位:内蒙古大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:高光来,张学良,邵允学,吴伟,范道尔吉,阿荣娜,赵建东,王炜华
关键词:
文字识别词定位文档图像检索蒙古文古籍伪相关反馈
结项摘要

Ancient Mongolian documents is a kind of carrier for the traditional cultures of the Mongolian people. And they are also the important component of Chinese nation's cultural heritage. However, as a kind of non-renewable cultural resources, the ancient Mongolian documents are mostly protected in museums and libraries. So, it is difficult to make use of them. It not only influences the utilization and transmission for the ancient Mongolian documents, but also restricts the inheritance and development of the minority nationality's culture. With the development of digitization technique, more and more ancient Mongolian documents are converted into digital images so as to protect them as long as possible. And the digital images can be shared more conveniently. The above provides the precondition for mining and utilizing the ancient Mongolian documents. In this project, the Mongolian Tipitaka is considered as the research object. Our research framework is based on a combination strategy of the recognition-based method and the recognition-free method. The indexes will be constructed by the character recognition technology and the word spotting technology separately, which can realize the aim of retrieving the ancient Mongolian document images. Therefore, the key research contents include restoration and automatic text annotation for word images, representation by the mixed features with fixed-length, multi-instances retrieval, data fusion for multiple ranking lists and so on. The project can play a very important part in mining and utilizing the ancient Mongolian documents. Moreover, it is very meaningful for promoting and developing the culture of minority nationality.

蒙古文古籍文献是蒙古族传统文化的重要载体,也是中华民族文化遗产的重要组成部分。然而,蒙古文古籍文献作为不可再生的宝贵文化资源,大都被珍藏在博物馆、图书馆里,不允许随便翻阅,这不但影响了蒙古文古籍文献的利用与传播,还制约了少数民族文化的传承与发展。数字技术的飞速发展使得蒙古文古籍文献可以通过数字化的形式保存和共享,这为挖掘和利用蒙古文古籍提供了前提条件。本项目拟以具有代表性的蒙古文大藏经为对象,在识别方法与无识别方法相融合的技术框架下,从文字识别和词定位两个角度出发分别构建文本索引库和特征索引库,以实现蒙古文古籍图像的全文检索。为此本项目将重点研究单词图像恢复、自动文本标注、字元切分与识别、多特征组合表示与固定长度表示、多样例检索、多检索结果融合等关键问题。本项目的实施对挖掘和利用蒙古文古籍文献、繁荣和发展少数民族文化具有重要意义。

项目摘要

蒙古文古籍文献是蒙古族传统文化的重要载体,也是中华民族文化遗产的重要组成部分。然而,蒙古文古籍文献作为不可再生的宝贵文化资源,大都被珍藏在博物馆、图书馆里,不允许随便翻阅,这不但影响了蒙古文古籍文献的利用与传播,还制约了少数民族文化的传承与发展。本项目以具有代表性的蒙古文大藏经为研究对象,重点解决了蒙古文古籍图像恢复、单词图像自动文本标注、古籍识别、单词图像表示、多样例检索与多检索结果融合等科学问题。本项目的主要贡献在于:(1)提出了基于马尔科夫随机场模型的蒙古文古籍图像恢复方法,有效提高了古籍图像质量。(2)提出了结合注意力机制的序列到序列自动文本标注方法,不但能够辅助人工标注,还有效解决了集外词问题。(3)采用整词识别与切分识别相结合的策略,并提出了基于轮廓分析的字元切分方法,实现了古籍词别。(4)在视觉词袋模型基础上,提出了视觉语言模型和基于潜在狄利克雷分解的单词图像表示方法,实现了单词图像固定长度表示,提高了单词图像之间的匹配精度和效率。(5)提出了视觉词嵌入技术,用于生成视觉词汇嵌入向量,将其用于统计翻译模型和词移动距离相似度计算模型,并将其与递归神经网络相结合,也分别实现了单词图像固定长度表示,进一步提高了检索性能。(6)利用伪相关反馈技术实现了多检索样例的获取,并以此进行二次检索。针对多组二次检索结果,提出了数据融合方法,实现了多组检索结果的有效融合,降低了因提供不同样例图像对检索结果造成的影响。通过本项目的实施,已探索出一套行之有效的蒙古文古籍图像检索新途径,能够为建立蒙古文古籍数字图书馆提供技术支持,这对挖掘和利用蒙古文古籍文献、繁荣和发展少数民族文化具有重要意义。此外,本课题的研究成果也能为与蒙古文构词、构形相近的其他语言文字古籍图像检索提供参考。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

内点最大化与冗余点控制的小型无人机遥感图像配准

内点最大化与冗余点控制的小型无人机遥感图像配准

DOI:10.11834/jrs.20209060
发表时间:2020
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

魏宏喜的其他基金

相似国自然基金

1

木刻印刷蒙古文古籍识别与检索技术的研究

批准号:60865003
批准年份:2008
负责人:高光来
学科分类:F0605
资助金额:25.00
项目类别:地区科学基金项目
2

融合多模态文本关联分析与挖掘的跨媒体社会图像检索方法研究

批准号:61572140
批准年份:2015
负责人:张玥杰
学科分类:F0211
资助金额:64.00
项目类别:面上项目
3

基于关键词多特征融合的维吾尔文文档图像检索

批准号:61563052
批准年份:2015
负责人:库尔班·吾布力
学科分类:F0304
资助金额:39.00
项目类别:地区科学基金项目
4

海量图像数据的混合媒质建模理论和融合检索技术研究

批准号:61003050
批准年份:2010
负责人:李晓燕
学科分类:F0202
资助金额:19.00
项目类别:青年科学基金项目