基于影像和语音分析的发音器官运动可视化

基本信息
批准号:61273288
项目类别:面上项目
资助金额:81.00
负责人:杨明浩
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2012
结题年份:2016
起止时间:2013-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:于萍,温正棋,刘斌,刘善峰,李雅,李昊,巢林林,张大伟,胡永梅
关键词:
多模态病理语音数据库语音可视化语音分析嗓音评估医学图像处理
结项摘要

In spite of great progress have been achieved in voice medicine recently, the situation has not changed that the diagnosis for language disorder patients depends on the personal experience of speech pathologists and speech therapists. There are mainly two reasons behind this phenomenon. (1) How speech is produced is not completely clear in physiological mechanism for speech pathologists; (2) Most speech organs are hided deeply in body, which makes them difficult to observe, so that objective voice analysis in dysphonic patients is still a huge challenge for speech pathologists and speech therapists. This study analysis the relationship between organs' movements and voice features firstly and then elaborately construct the 3D model of speech organs from the low-resolution medical video and drive the vocal tract movements based on input voice. Based on the visualization technique for speech organs movements, this study further construct the mapping model between organ movements and pathological voice by analysising and comparing the difference of organ movements and voice between language disorder sufferers and normal persons. And a speech organs' movements and voice feature database will be constructed depending on the mapping model. Finally, supported by cooperative hospital, we will verify the visualization tool and voice analysis model in clinic diagnoses and healing training, and improve the study on vocal visualization and voice disorder analysis. This research could help to improve the standard establishment on objective voice analysis, and contribute to further study on language disorder in physiology.

目前,语言病理学家和言语治疗师们对发音障碍进行诊断和康复评估时,通常依赖个人经验做出判断,其主要原因有两点:一是医学界对人类的发音机理尚不完全清楚;二是多数发音器官隐藏在人体内部,器官运动与语音的关系难以观测,缺乏客观评估依据。本课题以同步分析器官运动和对应语音之间的关系为出发点和目标,建立形状约束的发音器官三维运动离散紧凑表示和三维精细控制模型,研究器官二维残缺影像轮廓的三维形状复原方法,从低质量医学影像中重建发音器官的三维运动,实现发音器官的协同控制和可视化。在此基础上,对比典型患者与正常者语音及器官三维运动的差异,在时序上深入分析发音器官运动缺陷与异常语音的关联,在合作医院的支持下,将可视化工具和病理语音映射模型在临床中验证,提高科研成果的实用性。本课题的开展,除了为语音障碍诊断和康复训练提供客观评估依据外,也为进一步研究发音障碍的生理机理提供直观的可视化分析工具和重要的数据支持。

项目摘要

针对言语障碍诊断和口语训练缺乏有效的客观评估依据的现状,项目旨在建立语音驱动的发音器官运动可视化模型。该研究对于探索人的发音及病理语音形成机理有重要价值,也对于言语发音教学、外语发音培训等具有重要作用。项目在2012年3月申请并获批,执行时间为2013年1月到2016年12月。针对研究目标,项目分为三大研究内容:(1)多模态发音观测数据库建立及发音器官运动轮廓提取;(2)基于语音驱动的发音器官的协同驱动模型及发音器官运动可视化;(3)基于语音的不同发音人轮廓对齐及比较。在第一个研究点上,项目组建立了多模态发音多模态发音器官轮廓运动数据库以及低质量医学影像(包括MRI、超声图像等)中发音器官自动定位、轮廓跟踪方法,用于fMRI或者超声影像中的医学图像目标轮廓提取,是观测和分析人体发音是否正常的有力工具,对于探索人类发音机理具有重要价值;在第二个研究点上,项目组建立了基于GMM和DNN的声学参数与发音器官轮廓运动参数映射模型,实现了输入任意文本舌位和唇部轮廓的动画驱动展示,这对于言语发音、口语发音训练具有重要作用;在第三个研究点上,项目组建立了不同发音人的舌位运动轮廓对齐方法,实现不同发音人在发音过程中向标准轮廓对齐,能有效降低发音过程中不同发音人的生理差异,这对于评估发音、言语障碍诊断具有重要价值;最后,项目组构建了基于语音驱动的发音器官统计映射实时驱动模型,输入任何一段文本或者语音,实时生成语音声道同步运动过程。相关工作在ICASSP、InterSpeech、MTAP、JCAD等国内外重要期刊和会议上共发表论文10余篇,在2013年全国人机语音学学术会议上“多模态发音观测与分析” 分会上以及在2015年全国人机语音学学术会议上“语音产生与分析”分会上做了特邀报告,提交国家发明专利3项,获得批复1项。项目构建的语音驱动的发音器官可视化模型以“语音驱动唇动引擎”方式技术转化给了腾讯等企业。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

杨明浩的其他基金

相似国自然基金

1

能说会唱的三维虚拟人头:语音、歌声和情感语义同步的人脸及发音器官可视化研究

批准号:61572450
批准年份:2015
负责人:於俊
学科分类:F0209
资助金额:66.00
项目类别:面上项目
2

基于观测图像的发音器官运动合成研究

批准号:61175016
批准年份:2011
负责人:魏建国
学科分类:F0605
资助金额:59.00
项目类别:面上项目
3

基于影像定量分析和特征可视化的虚拟内窥镜关键技术研究

批准号:81230035
批准年份:2012
负责人:卢虹冰
学科分类:H2708
资助金额:280.00
项目类别:重点项目
4

基于非线性语音谱分析的单通道语音增强研究

批准号:61302126
批准年份:2013
负责人:王杰
学科分类:F0117
资助金额:23.00
项目类别:青年科学基金项目