基于多模态观测的静态与动态个性化语音产生机理研究

基本信息

批准号：61876131

项目类别：面上项目

资助金额：58.00

负责人：路文焕

学科分类：

依托单位：天津大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：本多清志,蔡岳晋,唐家炜,李岭,张笑寒,苏志华,陈宗雷,张琳,王喆

关键词：

声道建模语音生成发音运动多模态语音

结项摘要

The purpose of this study is to reveal the mechanism of physiological phonetic motivation related to personalized features in speech through the study of phonetic observations in multiple languages (dialects), large-scale and multi-modalities. At the same time, it can enrich the means and methods of pronunciation movement observation and accumulate large-scale pronunciation movement database to promote related research in the field of speech generation. Through the development of new technologies and methods to use MRI to observe and analyze the process of phonetic movement to reveal the common mechanism of phonetic common features and personal characteristics in human phonation process so as to enhance our understanding of phonological process and to promote Modeling of pronunciation process. Through MRI observation nasal and hypopharyngeal articulation movement to reveal the relationship between the personalized pronunciation features. By studying the characteristics of pharyngeal resonance of female speakers, we can reveal the influence of gender on pharyngeal dysphonia. Finally, acoustical computational simulation models and solid-state mechanical models can be established to acoustically analyze and verify the sounding mechanism.

本研究旨在通过对多种语言（方言）、大规模、多模态的发音观测数据的研究，能够揭示语音中与个性化特征相关的生理发音运动机理。与此同时，可以丰富对发音运动观测的手段及方法，积累大规模发音运动数据库，从而推动语音生成领域的相关研究。通过开发新技术及手段来利用MRI观测与分析发音运动过程，揭示人发音过程中语音共性特征与个性化特征共同产生的机理，从而提高我们对语音产生过程的理解，同时通过观测数据来促进对发音过程的建模研究。通过MRI观测鼻腔及下咽腔的发音运动来揭示其个性化发音特征的关系。通过研究女性发音人的咽腔共振特性，从而揭示性别对咽腔在发音特征差异的影响。最后，能够建立声学计算仿真模型和固态机械模型来对发音机理进行声学分析与验证。

项目摘要

本研究从动态声道发音运动结合静态声道形态来深入研究说话人个性化发音特性。声道主要包括三个腔体：鼻腔，口腔和喉腔。针对三个不同腔体，本研究利用不同模态的数据及不同的研究手段来进行深入观测与分析。.1.鼻腔个性化语音生成机理研究. 团队研究设计了一种用于记录口气流、鼻气流和无损语音的模压纤维面罩，对声音无损却能提供气流阻力。同时，鼻罩分隔了口鼻气流通道，并利用高灵敏度的压力传感器测量面罩内外的气压差以测定口鼻气流量。通过观察鼻气流波形的缓慢或快速的变化，可以分析软腭上升和振动的影响，.2.喉腔个性化发音特性的研究. 提取 MRI 数据中的声道形状，建立三维声道模型并打印，使用打印出来的固态声道模型和声门耦合器进行声学实验，同时使用面积函数和传递函数进行确性分析和形态学分析，从而研究女性喉腔在个性化特征方面产生的声学影响。并利用物理模型仿真，发现不同形态的喉腔所产生的语音信号差异。.3.舌体发音运动过程对个性化语音影响研究. 记录一套 150 人的超声图像发音运动数据集，并利用深度神经网络建立超声图像到语音的映射关系，进而分析舌体运动对个性化语音信号的影响。在本项研究中进一步对相对舌体大小(RTS)在声学特性方面的影响展开了研究，即通过比较舌体的运动速度和共振峰频率的变化率，来分析不同的相对舌体大小产生的说话人个性动态特征。. 在基金资助期间，项目工作取得了大量成果，超额完成任务，发表论文 15 篇，其中 SCI 文章 8 篇，EI 文章 7 篇。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

DOI：10.7641/CTA.2018.70969

发表时间：2018

路文焕的其他基金

批准号：61304250

批准年份：2013

资助金额：26.00

项目类别：青年科学基金项目

相似国自然基金

基于多模态观测的跨语言语音发音机理研究

批准号：61862054

批准年份：2018

负责人：安见才让

学科分类：F02

资助金额：37.00

项目类别：地区科学基金项目

基于多模态数据的语音相关面部形变机理研究

批准号：60803067

批准年份：2008

负责人：裴玉茹

学科分类：F0209

资助金额：20.00

项目类别：青年科学基金项目

基于深度学习的文本和语音多模态数据挖掘研究

批准号：61672301

批准年份：2016

负责人：裴志利

学科分类：F0605

资助金额：62.00

项目类别：面上项目

基于多模态信息深度语义融合的个性化音乐推荐模型研究

批准号：61771196

批准年份：2017

负责人：陈宁

学科分类：F0113

资助金额：62.00

项目类别：面上项目

基于多模态观测的静态与动态个性化语音产生机理研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

结直肠癌免疫治疗的多模态影像及分子影像评估

具有随机多跳时变时延的多航天器协同编队姿态一致性

路文焕的其他基金

基于超声图像的静音语音识别关键技术研究

相似国自然基金