Written records of the history of China can date thousands of years ago, which leaves a rich cultural heritage for today's Chinese. Among them, Difangzhi conserver a wealth of local information, which makes it is the most important reference for understanding Chinese history and culture. However, the traditional literature, such as Difangzhi, is too voluminous to be processed by human begin. .The advent of the information technology makes this traditional literature digitalized, which makes it possible to use it automatically. It is still very difficult to have in-depth understanding and full use of it. .In recent years, Deep Learning has made remarkable progress in many sub-areas of artificial intelligence, and has also greatly promoted the development natural language processing. Thus, Deep Learning has provided a powerful tool for analyzing and utilizing traditional literature..The project intends to study the automatic text mining for Difangzhi. As it is very difficult to process Difangzhi, we try to apply deep learning method to study information extraction model and knowledge representation model of Difangzhi, combining knowledge graphs (Such as Baidu Encyclopedia) and other useful external materials (such as China Biographical Database, CBDB). Based on this, we will take ancient academy of Jiangxi as a case study to learn a Jiangxi academy knowledge graph. Thus, we will provide an effective framework of automatic text mining model for Difangzhi.
中国史学传统绵延数千年,留下了丰厚的文化遗产。其中,地方志记录了丰富的地方信息,因而是研究中国历史和文化的重要资料。然而,类似于地方志这样的传统文献卷帙浩繁,人类的处理能力难以企及。信息技术使得上述文献得以数字化,也使得有效利用它们成为可能。但传统的技术手段还无法实现对这些文本的深度挖掘。.近年来,深度学习在人工智能的多个子领域均取得了显著的进展,也极大促进了自然语言处理领域的发展,为有效分析和利用上述传统文献提供了有力的工具。.本项目将研究地方志文本的自动挖掘,考虑到地方志领域的训练语料匮乏,我们将借助于百度百科等知识图谱和中国历代人物传记数据库(CBDB)等外部资源,应用深度学习技术并结合基于规则的方法研究地方志信息抽取模型,进一步研究结合外部资源的地方志知识表示模型,以江西书院为例构建江西书院知识图谱,以期为地方志文本的自动挖掘提供一个有效的框架。
中华文明源远流长,文献典籍汗牛充栋,这些典籍是理解中华文化精神内涵的基础。然而,由于汉语经过了长时间的历史演变,想要阅读、理解这些经典的历史文献并非易事。若想实现传统文本,如地方志等典籍的知识获取,仍需依托于传统的文本(文言文)的自然语言处理技术。而现有的基于传统文本的自然语言处理研究受限于语料的匮乏尤其是高质量语料的匮乏,实际上尽管传统文本的语料资源建设已受到相关学术领域的关注,但是与许多具体任务相关的标准语料的建设仍值得关注,需要更多的投入。.此外,虽然中文的自然语言处理研究已有突破性的进展,但是目前中文的自然语言处理技术主要还是基于现代文。由于文言文和现代存在较大的差别,基于现代文的自然语言处理技术并不总是能适用于文言文。.我们基于此项目的支持展开了基于文言文的自然语言处理研究,目前主要展开的工作包括:数据集的建设、文言文-现代文的机器翻译研究、文言文的命名实体识别和关系抽取模型研究以及文本风格迁移等。这些工作的展开可以支撑地方志文本的挖掘研究。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
服务经济时代新动能将由技术和服务共同驱动
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
无指导汉语文本挖掘的统计模型和统计推断
文本挖掘的统计建模
互联网藏文文本资源挖掘及语料抽取关键技术研究
基于文本挖掘的在线零售商信誉评价模型研究