赣方言篇章平行语料库构建及计算模型研究

基本信息
批准号:61772246
项目类别:面上项目
资助金额:59.00
负责人:徐凡
学科分类:
依托单位:江西师范大学
批准年份:2017
结题年份:2021
起止时间:2018-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:李茂西,曾锦山,周新宇,刘长红,肖文艳,张辰麟,杜舒静,谭亦鸣,田明明
关键词:
计算模型赣方言平行语料库篇章语料标注
结项摘要

Dialect, an excellent intangible cultural heritage of China, should not vanish with the increasing popularization of Mandarin. To improve the dialect annotation system and solve the problems of corpus building and computational modelling, we will work on the following aspects: (1) Propose an annotation scheme for the Gan dialect handling and manually build a high-quality annotated discourse-level parallel corpus of the Gan dialect with a certain scale. (2) Study how the latent semantic dual space mechanism and the automatic post-handling of the word mapping can interact with and benefit from each other to generate the word alignment of the Gan dialect based on the annotated corpus. (3) Propose optimal identification models of the Gan dialect via studying the recurrent neural network and deep reinforcement learning for the sentence-level and discourse-level dialect discrimination respectively based on the fusion of the extracted word alignment and distributed sentence representation features. Meanwhile, study the combination learning mechanism for discourse cohesion and discourse coherence in the Gan dialect. This research has important theoretical significance and application value for promoting the Project of Chinese Language Resources Protection proposed by the Ministry of Education. It is also beneficial to the subsequent development and utilization of the audio resource of Jiangxi Province.

方言作为中华民族优秀的一种非物质文化遗产,其不应该随普通话的日益普及而消失。针对目前方言的标注体系有待完善、语料库构建和计算模型研究等方面的不足等问题,本项目拟在以下方面进行深入的研究和探索:(1)建立一套适用于赣方言处理的标注规范,并手工标注完成一定规模的高质量赣方言篇章平行语料库。(2)基于标注的平行语料,研究基于潜在语义对偶空间的赣方言词对齐模型,并利用自动后处理的词映射机制对抽取的词对齐加以修正。(3)通过融合抽取的词对齐、句子分布式表示等多方面的特征,研究递归神经网络下的句子级赣方言识别模型和基于强化学习机制的篇章级赣方言识别模型,并探索赣方言篇章衔接性与连贯性联合学习机制。本项目开展的研究工作对于推进教育部的语言资源保护工程建设具有重要理论意义和应用价值,同时也有利于江西省有声资源库的后续开发和利用。

项目摘要

四年来,本课题总体按照申请书计划顺利开展,围绕赣方言篇章平行语料库构建及计算模型的完成情况及取得的成果已达到预期目标。本课题已完成的研究内容包括五个方面(其中第一项、第二项、第三项和第四项为申请书计划研究内容,第五项为本课扩展研究内容):.•一是建立了一套适用于赣方言处理的标注规范,并采用众包与传统方式结合方法手工标注了一定规模的高质量多模态赣方言篇章平行语料库。本课题构建了两套多模态(语音和文本)江西境内方言语料库。其中一套赣方言数据集包含310篇文档的江西境内19个方言点131.50小时的方言朗读语料。该语料包含6种题材,分别是新闻、诗歌、故事、讲座、散文、公文(邀请函、演 讲词、信件、通知)。另一套赣方言数据集包含词汇、故事和例句三种类型文本的2246人朗读语料,共26.50GB大小,6375条语音文件,总时长约421小时。.•二是围绕赣方言语种和语音识别问题,分别提出了①基于迁移学习和数据增强的赣方言识别深度学习模型②基于卷积神经网络和注意力机制的赣和③基于自注意力的端到端方言语音识别模型。基于国际基准语料上的实验表明了本课提出的方法优于代表性基准模型。.•三是围绕赣方言自动分区问题,提出了基于CNN的自编码降维语谱图的深度学习方言自动分区模型,对降维后的语音特征分别采用K均值算法聚类、高斯混合聚类和层次聚类对方言自动分区。实验结果表明,维度为16时语谱图和MFCC下的拼接特征聚类效果与传统人工方言分区较为接近。该自动分区模型可以从一定程度上缓解人工方言分区的主观性。.•四是围绕大中华区的语言变体识别问题,提出了①基于混合SENet(Squeeze-and-Excitation network)的深度学习模型②围绕语言变体语料库及计算模型,课题负责人完成了学术独著一部。.•五是围绕扩充性的多模态虚假信息检测及深度学习优化算法研究。针对社交媒体虚假信息检测,本课题对社交媒体虚假信息检测进行了深度综述(包含虚假信息及相近概念定义、问题的形式化描述、语料库、代表性方法、模型优缺点、单模态和多模态、未来展望等),同时提出了融合主题模型、图像描述、世界知识图谱、语言知识图谱的虚假信息检测深度学习模型。针对深度学习优化算法方面,本课题组成员提出了一系列加速算法收敛的模型。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

货币政策与汇率制度对国际收支的影响研究

货币政策与汇率制度对国际收支的影响研究

DOI:
发表时间:2022

徐凡的其他基金

批准号:21272168
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:81702840
批准年份:2017
资助金额:19.00
项目类别:青年科学基金项目
批准号:31401298
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:61402208
批准年份:2014
资助金额:24.00
项目类别:青年科学基金项目
批准号:31601794
批准年份:2016
资助金额:20.00
项目类别:青年科学基金项目
批准号:20872106
批准年份:2008
资助金额:33.00
项目类别:面上项目
批准号:11602058
批准年份:2016
资助金额:25.00
项目类别:青年科学基金项目
批准号:11872150
批准年份:2018
资助金额:63.00
项目类别:面上项目

相似国自然基金

1

基于典籍引得的句法级汉英平行语料库构建及人文计算研究

批准号:71673143
批准年份:2016
负责人:王东波
学科分类:G0414
资助金额:48.00
项目类别:面上项目
2

基于CSSCI的句法级汉英平行语料库构建及知识挖掘研究

批准号:71303120
批准年份:2013
负责人:王东波
学科分类:G0414
资助金额:20.00
项目类别:青年科学基金项目
3

基于互联网的汉语-缅语双语平行语料抽取方法及语料库构建

批准号:61662041
批准年份:2016
负责人:毛存礼
学科分类:F0211
资助金额:40.00
项目类别:地区科学基金项目
4

汉语篇章话题结构:形式化表示体系、语料库构建及其关键技术研究

批准号:61673290
批准年份:2016
负责人:周国栋
学科分类:F03
资助金额:65.00
项目类别:面上项目