基于影像和语音分析的发音器官运动可视化

基本信息

批准号：61273288

项目类别：面上项目

资助金额：81.00

负责人：杨明浩

学科分类：

依托单位：中国科学院自动化研究所

批准年份：2012

结题年份：2016

起止时间：2013-01-01 - 2016-12-31

项目状态：已结题

项目参与者：于萍,温正棋,刘斌,刘善峰,李雅,李昊,巢林林,张大伟,胡永梅

关键词：

多模态病理语音数据库语音可视化语音分析嗓音评估医学图像处理

结项摘要

In spite of great progress have been achieved in voice medicine recently, the situation has not changed that the diagnosis for language disorder patients depends on the personal experience of speech pathologists and speech therapists. There are mainly two reasons behind this phenomenon. (1) How speech is produced is not completely clear in physiological mechanism for speech pathologists; (2) Most speech organs are hided deeply in body, which makes them difficult to observe, so that objective voice analysis in dysphonic patients is still a huge challenge for speech pathologists and speech therapists. This study analysis the relationship between organs' movements and voice features firstly and then elaborately construct the 3D model of speech organs from the low-resolution medical video and drive the vocal tract movements based on input voice. Based on the visualization technique for speech organs movements, this study further construct the mapping model between organ movements and pathological voice by analysising and comparing the difference of organ movements and voice between language disorder sufferers and normal persons. And a speech organs' movements and voice feature database will be constructed depending on the mapping model. Finally, supported by cooperative hospital, we will verify the visualization tool and voice analysis model in clinic diagnoses and healing training, and improve the study on vocal visualization and voice disorder analysis. This research could help to improve the standard establishment on objective voice analysis, and contribute to further study on language disorder in physiology.

目前，语言病理学家和言语治疗师们对发音障碍进行诊断和康复评估时，通常依赖个人经验做出判断，其主要原因有两点：一是医学界对人类的发音机理尚不完全清楚；二是多数发音器官隐藏在人体内部，器官运动与语音的关系难以观测，缺乏客观评估依据。本课题以同步分析器官运动和对应语音之间的关系为出发点和目标，建立形状约束的发音器官三维运动离散紧凑表示和三维精细控制模型，研究器官二维残缺影像轮廓的三维形状复原方法，从低质量医学影像中重建发音器官的三维运动，实现发音器官的协同控制和可视化。在此基础上，对比典型患者与正常者语音及器官三维运动的差异，在时序上深入分析发音器官运动缺陷与异常语音的关联，在合作医院的支持下，将可视化工具和病理语音映射模型在临床中验证，提高科研成果的实用性。本课题的开展，除了为语音障碍诊断和康复训练提供客观评估依据外，也为进一步研究发音障碍的生理机理提供直观的可视化分析工具和重要的数据支持。

项目摘要

针对言语障碍诊断和口语训练缺乏有效的客观评估依据的现状，项目旨在建立语音驱动的发音器官运动可视化模型。该研究对于探索人的发音及病理语音形成机理有重要价值，也对于言语发音教学、外语发音培训等具有重要作用。项目在2012年3月申请并获批，执行时间为2013年1月到2016年12月。针对研究目标，项目分为三大研究内容：（1）多模态发音观测数据库建立及发音器官运动轮廓提取；（2）基于语音驱动的发音器官的协同驱动模型及发音器官运动可视化；（3）基于语音的不同发音人轮廓对齐及比较。在第一个研究点上，项目组建立了多模态发音多模态发音器官轮廓运动数据库以及低质量医学影像（包括MRI、超声图像等）中发音器官自动定位、轮廓跟踪方法，用于fMRI或者超声影像中的医学图像目标轮廓提取，是观测和分析人体发音是否正常的有力工具，对于探索人类发音机理具有重要价值；在第二个研究点上，项目组建立了基于GMM和DNN的声学参数与发音器官轮廓运动参数映射模型，实现了输入任意文本舌位和唇部轮廓的动画驱动展示，这对于言语发音、口语发音训练具有重要作用；在第三个研究点上，项目组建立了不同发音人的舌位运动轮廓对齐方法，实现不同发音人在发音过程中向标准轮廓对齐，能有效降低发音过程中不同发音人的生理差异，这对于评估发音、言语障碍诊断具有重要价值；最后，项目组构建了基于语音驱动的发音器官统计映射实时驱动模型，输入任何一段文本或者语音，实时生成语音声道同步运动过程。相关工作在ICASSP、InterSpeech、MTAP、JCAD等国内外重要期刊和会议上共发表论文10余篇，在2013年全国人机语音学学术会议上“多模态发音观测与分析” 分会上以及在2015年全国人机语音学学术会议上“语音产生与分析”分会上做了特邀报告，提交国家发明专利3项，获得批复1项。项目构建的语音驱动的发音器官可视化模型以“语音驱动唇动引擎”方式技术转化给了腾讯等企业。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：

发表时间：

DOI：

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

杨明浩的其他基金

批准号：31040037

批准年份：2010

资助金额：10.00

项目类别：专项基金项目

批准号：61873269

批准年份：2018

资助金额：65.00

项目类别：面上项目

相似国自然基金

能说会唱的三维虚拟人头：语音、歌声和情感语义同步的人脸及发音器官可视化研究

批准号：61572450

批准年份：2015

负责人：於俊

学科分类：F0209

资助金额：66.00

项目类别：面上项目

基于观测图像的发音器官运动合成研究

批准号：61175016

批准年份：2011

负责人：魏建国

学科分类：F0605

资助金额：59.00

项目类别：面上项目

基于影像定量分析和特征可视化的虚拟内窥镜关键技术研究

批准号：81230035

批准年份：2012

负责人：卢虹冰

学科分类：H2708

资助金额：280.00

项目类别：重点项目

基于非线性语音谱分析的单通道语音增强研究

批准号：61302126

批准年份：2013

负责人：王杰

学科分类：F0117

资助金额：23.00

项目类别：青年科学基金项目

基于影像和语音分析的发音器官运动可视化

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

针对弱边缘信息的左心室图像分割算法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于多色集合理论的医院异常工作流处理建模

基于改进LinkNet的寒旱区遥感图像河流识别方法

杨明浩的其他基金

大鼠海马CA1、CA3区锥体神经元的I、II型兴奋性及其转化

对话交互的动态场景内容认知及规划理论和方法研究

相似国自然基金