结合外部资源的地方志文本挖掘模型研究

基本信息

批准号：61866018

项目类别：地区科学基金项目

资助金额：38.00

负责人：左家莉

学科分类：

依托单位：江西师范大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：罗文兵,曲彦文,肖文艳,张辰麟,杨雨晴,肖波

关键词：

文本挖掘知识图谱命名实体识别信息抽取知识表示

结项摘要

Written records of the history of China can date thousands of years ago, which leaves a rich cultural heritage for today's Chinese. Among them, Difangzhi conserver a wealth of local information, which makes it is the most important reference for understanding Chinese history and culture. However, the traditional literature, such as Difangzhi, is too voluminous to be processed by human begin. .The advent of the information technology makes this traditional literature digitalized, which makes it possible to use it automatically. It is still very difficult to have in-depth understanding and full use of it. .In recent years, Deep Learning has made remarkable progress in many sub-areas of artificial intelligence, and has also greatly promoted the development natural language processing. Thus, Deep Learning has provided a powerful tool for analyzing and utilizing traditional literature..The project intends to study the automatic text mining for Difangzhi. As it is very difficult to process Difangzhi, we try to apply deep learning method to study information extraction model and knowledge representation model of Difangzhi, combining knowledge graphs (Such as Baidu Encyclopedia) and other useful external materials (such as China Biographical Database, CBDB). Based on this, we will take ancient academy of Jiangxi as a case study to learn a Jiangxi academy knowledge graph. Thus, we will provide an effective framework of automatic text mining model for Difangzhi.

中国史学传统绵延数千年，留下了丰厚的文化遗产。其中，地方志记录了丰富的地方信息，因而是研究中国历史和文化的重要资料。然而，类似于地方志这样的传统文献卷帙浩繁，人类的处理能力难以企及。信息技术使得上述文献得以数字化，也使得有效利用它们成为可能。但传统的技术手段还无法实现对这些文本的深度挖掘。.近年来，深度学习在人工智能的多个子领域均取得了显著的进展，也极大促进了自然语言处理领域的发展，为有效分析和利用上述传统文献提供了有力的工具。.本项目将研究地方志文本的自动挖掘，考虑到地方志领域的训练语料匮乏，我们将借助于百度百科等知识图谱和中国历代人物传记数据库（CBDB）等外部资源，应用深度学习技术并结合基于规则的方法研究地方志信息抽取模型，进一步研究结合外部资源的地方志知识表示模型，以江西书院为例构建江西书院知识图谱，以期为地方志文本的自动挖掘提供一个有效的框架。

项目摘要

中华文明源远流长，文献典籍汗牛充栋，这些典籍是理解中华文化精神内涵的基础。然而，由于汉语经过了长时间的历史演变，想要阅读、理解这些经典的历史文献并非易事。若想实现传统文本，如地方志等典籍的知识获取，仍需依托于传统的文本（文言文）的自然语言处理技术。而现有的基于传统文本的自然语言处理研究受限于语料的匮乏尤其是高质量语料的匮乏，实际上尽管传统文本的语料资源建设已受到相关学术领域的关注，但是与许多具体任务相关的标准语料的建设仍值得关注，需要更多的投入。.此外，虽然中文的自然语言处理研究已有突破性的进展，但是目前中文的自然语言处理技术主要还是基于现代文。由于文言文和现代存在较大的差别，基于现代文的自然语言处理技术并不总是能适用于文言文。.我们基于此项目的支持展开了基于文言文的自然语言处理研究，目前主要展开的工作包括：数据集的建设、文言文-现代文的机器翻译研究、文言文的命名实体识别和关系抽取模型研究以及文本风格迁移等。这些工作的展开可以支撑地方志文本的挖掘研究。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3724/SP.J.1089.2019.17435

发表时间：2019

DOI：10.7498/aps.68.20181682

发表时间：2019

DOI：10.11936/bjutxb2021010011

发表时间：2021

左家莉的其他基金

批准号：61462043

批准年份：2014

资助金额：46.00

项目类别：地区科学基金项目

相似国自然基金

无指导汉语文本挖掘的统计模型和统计推断

批准号：11401338

批准年份：2014

负责人：邓柯

学科分类：A0403

资助金额：22.00

项目类别：青年科学基金项目

文本挖掘的统计建模

批准号：11571021

批准年份：2015

负责人：贾金柱

学科分类：A0402

资助金额：45.00

项目类别：面上项目

互联网藏文文本资源挖掘及语料抽取关键技术研究

批准号：61202219

批准年份：2012

负责人：刘汇丹

学科分类：F0211

资助金额：23.00

项目类别：青年科学基金项目

基于文本挖掘的在线零售商信誉评价模型研究

批准号：70871048

批准年份：2008

负责人：赵学锋

学科分类：G0112

资助金额：24.00

项目类别：面上项目

结合外部资源的地方志文本挖掘模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于改进LinkNet的寒旱区遥感图像河流识别方法

信息熵-保真度联合度量函数的单幅图像去雾方法

高分五号卫星多角度偏振相机最优化估计反演:角度依赖与后验误差分析

城市生活垃圾热值的特征变量选择方法及预测建模

左家莉的其他基金

基于概率图的文本检索模型及算法研究

相似国自然基金