结合外部资源的地方志文本挖掘模型研究

基本信息
批准号:61866018
项目类别:地区科学基金项目
资助金额:38.00
负责人:左家莉
学科分类:
依托单位:江西师范大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:罗文兵,曲彦文,肖文艳,张辰麟,杨雨晴,肖波
关键词:
文本挖掘知识图谱命名实体识别信息抽取知识表示
结项摘要

Written records of the history of China can date thousands of years ago, which leaves a rich cultural heritage for today's Chinese. Among them, Difangzhi conserver a wealth of local information, which makes it is the most important reference for understanding Chinese history and culture. However, the traditional literature, such as Difangzhi, is too voluminous to be processed by human begin. .The advent of the information technology makes this traditional literature digitalized, which makes it possible to use it automatically. It is still very difficult to have in-depth understanding and full use of it. .In recent years, Deep Learning has made remarkable progress in many sub-areas of artificial intelligence, and has also greatly promoted the development natural language processing. Thus, Deep Learning has provided a powerful tool for analyzing and utilizing traditional literature..The project intends to study the automatic text mining for Difangzhi. As it is very difficult to process Difangzhi, we try to apply deep learning method to study information extraction model and knowledge representation model of Difangzhi, combining knowledge graphs (Such as Baidu Encyclopedia) and other useful external materials (such as China Biographical Database, CBDB). Based on this, we will take ancient academy of Jiangxi as a case study to learn a Jiangxi academy knowledge graph. Thus, we will provide an effective framework of automatic text mining model for Difangzhi.

中国史学传统绵延数千年,留下了丰厚的文化遗产。其中,地方志记录了丰富的地方信息,因而是研究中国历史和文化的重要资料。然而,类似于地方志这样的传统文献卷帙浩繁,人类的处理能力难以企及。信息技术使得上述文献得以数字化,也使得有效利用它们成为可能。但传统的技术手段还无法实现对这些文本的深度挖掘。.近年来,深度学习在人工智能的多个子领域均取得了显著的进展,也极大促进了自然语言处理领域的发展,为有效分析和利用上述传统文献提供了有力的工具。.本项目将研究地方志文本的自动挖掘,考虑到地方志领域的训练语料匮乏,我们将借助于百度百科等知识图谱和中国历代人物传记数据库(CBDB)等外部资源,应用深度学习技术并结合基于规则的方法研究地方志信息抽取模型,进一步研究结合外部资源的地方志知识表示模型,以江西书院为例构建江西书院知识图谱,以期为地方志文本的自动挖掘提供一个有效的框架。

项目摘要

中华文明源远流长,文献典籍汗牛充栋,这些典籍是理解中华文化精神内涵的基础。然而,由于汉语经过了长时间的历史演变,想要阅读、理解这些经典的历史文献并非易事。若想实现传统文本,如地方志等典籍的知识获取,仍需依托于传统的文本(文言文)的自然语言处理技术。而现有的基于传统文本的自然语言处理研究受限于语料的匮乏尤其是高质量语料的匮乏,实际上尽管传统文本的语料资源建设已受到相关学术领域的关注,但是与许多具体任务相关的标准语料的建设仍值得关注,需要更多的投入。.此外,虽然中文的自然语言处理研究已有突破性的进展,但是目前中文的自然语言处理技术主要还是基于现代文。由于文言文和现代存在较大的差别,基于现代文的自然语言处理技术并不总是能适用于文言文。.我们基于此项目的支持展开了基于文言文的自然语言处理研究,目前主要展开的工作包括:数据集的建设、文言文-现代文的机器翻译研究、文言文的命名实体识别和关系抽取模型研究以及文本风格迁移等。这些工作的展开可以支撑地方志文本的挖掘研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

服务经济时代新动能将由技术和服务共同驱动

服务经济时代新动能将由技术和服务共同驱动

DOI:10.19474/j.cnki.10-1156/f.001172
发表时间:2017
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理

DOI:10.19783/j.cnki.pspc.200521
发表时间:2021

左家莉的其他基金

批准号:61462043
批准年份:2014
资助金额:46.00
项目类别:地区科学基金项目

相似国自然基金

1

无指导汉语文本挖掘的统计模型和统计推断

批准号:11401338
批准年份:2014
负责人:邓柯
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
2

文本挖掘的统计建模

批准号:11571021
批准年份:2015
负责人:贾金柱
学科分类:A0402
资助金额:45.00
项目类别:面上项目
3

互联网藏文文本资源挖掘及语料抽取关键技术研究

批准号:61202219
批准年份:2012
负责人:刘汇丹
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
4

基于文本挖掘的在线零售商信誉评价模型研究

批准号:70871048
批准年份:2008
负责人:赵学锋
学科分类:G0112
资助金额:24.00
项目类别:面上项目