赣方言篇章平行语料库构建及计算模型研究

基本信息

批准号：61772246

项目类别：面上项目

资助金额：59.00

负责人：徐凡

学科分类：

依托单位：江西师范大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：李茂西,曾锦山,周新宇,刘长红,肖文艳,张辰麟,杜舒静,谭亦鸣,田明明

关键词：

计算模型赣方言平行语料库篇章语料标注

结项摘要

Dialect, an excellent intangible cultural heritage of China, should not vanish with the increasing popularization of Mandarin. To improve the dialect annotation system and solve the problems of corpus building and computational modelling, we will work on the following aspects: (1) Propose an annotation scheme for the Gan dialect handling and manually build a high-quality annotated discourse-level parallel corpus of the Gan dialect with a certain scale. (2) Study how the latent semantic dual space mechanism and the automatic post-handling of the word mapping can interact with and benefit from each other to generate the word alignment of the Gan dialect based on the annotated corpus. (3) Propose optimal identification models of the Gan dialect via studying the recurrent neural network and deep reinforcement learning for the sentence-level and discourse-level dialect discrimination respectively based on the fusion of the extracted word alignment and distributed sentence representation features. Meanwhile, study the combination learning mechanism for discourse cohesion and discourse coherence in the Gan dialect. This research has important theoretical significance and application value for promoting the Project of Chinese Language Resources Protection proposed by the Ministry of Education. It is also beneficial to the subsequent development and utilization of the audio resource of Jiangxi Province.

方言作为中华民族优秀的一种非物质文化遗产，其不应该随普通话的日益普及而消失。针对目前方言的标注体系有待完善、语料库构建和计算模型研究等方面的不足等问题，本项目拟在以下方面进行深入的研究和探索：（1）建立一套适用于赣方言处理的标注规范，并手工标注完成一定规模的高质量赣方言篇章平行语料库。（2）基于标注的平行语料，研究基于潜在语义对偶空间的赣方言词对齐模型，并利用自动后处理的词映射机制对抽取的词对齐加以修正。（3）通过融合抽取的词对齐、句子分布式表示等多方面的特征，研究递归神经网络下的句子级赣方言识别模型和基于强化学习机制的篇章级赣方言识别模型，并探索赣方言篇章衔接性与连贯性联合学习机制。本项目开展的研究工作对于推进教育部的语言资源保护工程建设具有重要理论意义和应用价值，同时也有利于江西省有声资源库的后续开发和利用。

项目摘要

四年来，本课题总体按照申请书计划顺利开展，围绕赣方言篇章平行语料库构建及计算模型的完成情况及取得的成果已达到预期目标。本课题已完成的研究内容包括五个方面（其中第一项、第二项、第三项和第四项为申请书计划研究内容，第五项为本课扩展研究内容）：.•一是建立了一套适用于赣方言处理的标注规范，并采用众包与传统方式结合方法手工标注了一定规模的高质量多模态赣方言篇章平行语料库。本课题构建了两套多模态（语音和文本）江西境内方言语料库。其中一套赣方言数据集包含310篇文档的江西境内19个方言点131.50小时的方言朗读语料。该语料包含6种题材，分别是新闻、诗歌、故事、讲座、散文、公文（邀请函、演讲词、信件、通知）。另一套赣方言数据集包含词汇、故事和例句三种类型文本的2246人朗读语料，共26.50GB大小，6375条语音文件，总时长约421小时。.•二是围绕赣方言语种和语音识别问题,分别提出了①基于迁移学习和数据增强的赣方言识别深度学习模型②基于卷积神经网络和注意力机制的赣和③基于自注意力的端到端方言语音识别模型。基于国际基准语料上的实验表明了本课提出的方法优于代表性基准模型。.•三是围绕赣方言自动分区问题，提出了基于CNN的自编码降维语谱图的深度学习方言自动分区模型，对降维后的语音特征分别采用K均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明，维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。该自动分区模型可以从一定程度上缓解人工方言分区的主观性。.•四是围绕大中华区的语言变体识别问题，提出了①基于混合SENet（Squeeze-and-Excitation network）的深度学习模型②围绕语言变体语料库及计算模型，课题负责人完成了学术独著一部。.•五是围绕扩充性的多模态虚假信息检测及深度学习优化算法研究。针对社交媒体虚假信息检测，本课题对社交媒体虚假信息检测进行了深度综述（包含虚假信息及相近概念定义、问题的形式化描述、语料库、代表性方法、模型优缺点、单模态和多模态、未来展望等），同时提出了融合主题模型、图像描述、世界知识图谱、语言知识图谱的虚假信息检测深度学习模型。针对深度学习优化算法方面，本课题组成员提出了一系列加速算法收敛的模型。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.1051/jnwpu/20213920292

发表时间：2021

DOI：10.13199/j.cnki.cst.2020.07.010

发表时间：2020

DOI：10.16383/j.aas.c180673

发表时间：2021

DOI：

发表时间：2020

DOI：10.11949/0438-1157.20201662

发表时间：2021

徐凡的其他基金

批准号：21272168

批准年份：2012

资助金额：80.00

项目类别：面上项目

批准号：81702840

批准年份：2017

资助金额：19.00

项目类别：青年科学基金项目

批准号：31401298

批准年份：2014

资助金额：24.00

项目类别：青年科学基金项目

批准号：61402208

批准年份：2014

资助金额：24.00

项目类别：青年科学基金项目

批准号：31601794

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：20872106

批准年份：2008

资助金额：33.00

项目类别：面上项目

批准号：11602058

批准年份：2016

资助金额：25.00

项目类别：青年科学基金项目

批准号：11872150

批准年份：2018

资助金额：63.00

项目类别：面上项目

相似国自然基金

基于典籍引得的句法级汉英平行语料库构建及人文计算研究

批准号：71673143

批准年份：2016

负责人：王东波

学科分类：G0414

资助金额：48.00

项目类别：面上项目

基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究

批准号：71303120

批准年份：2013

负责人：王东波

学科分类：G0414

资助金额：20.00

项目类别：青年科学基金项目

基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建

批准号：61662041

批准年份：2016

负责人：毛存礼

学科分类：F0211

资助金额：40.00

项目类别：地区科学基金项目

汉语篇章话题结构：形式化表示体系、语料库构建及其关键技术研究

批准号：61673290

批准年份：2016

负责人：周国栋

学科分类：F03

资助金额：65.00

项目类别：面上项目

赣方言篇章平行语料库构建及计算模型研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

一种基于多层设计空间缩减策略的近似高维优化方法

智能煤矿建设路线与工程实践

二维FM系统的同时故障检测与控制

扶贫资源输入对贫困地区分配公平的影响

LTNE条件下界面对流传热系数对部分填充多孔介质通道传热特性的影响

徐凡的其他基金

阳离子稀土化合物催化氢烷氧化和氢硫化反应的研究

HOXD13在早期前列腺癌根治手术后复发转移中的作用

水稻叶片衰老相关蛋白磷酸酶基因OsSAPPs的克隆与功能分析

汉语篇章连贯性分析计算模型研究

封闭式岩棉培番茄营养液精准调控机理与模型构建

高效稀土催化体系的开发及其在催化有机多组分反应中的应用

曲面膜基系统表面失稳与后屈曲分岔的多尺度研究

超材料宏-细-微观耦合失稳、结构相变与形貌演化

相似国自然基金