It is well-known that during pronunciation, there is intrinsic relationship between the audio and visual information of the speaker. By observing and analyzing the lip movements during utterance can help infer and recognize the speaking content. The above content-related lip movements are referred to as lip features and speech recognition based on lip features is called lip-reading. In this project, the relationship between the lip features and the speech content will be studied comprehensively and a series of large-vocabulary, continuous visual speech recognition approaches will be proposed. The major research focuses of the project lie in: i) Accurate and robust lip region segmentation, modeling, and lip feature extraction techniques; ii) Content-related discriminative ability analysis on the lip features; iii) Large vocabulary, continuous visual speech recognition schemes for speaker-independent and multi-speaker scenarios. This project will help disclose the underlying mechanism of speech recognition by lipreading. Furthermore, it will also provide new ideas and feasible solutions for those challenging problems in visual speech recognition. Finally, the expected research results can have broad applications in speech recognition systems in noisy environments, human-computer interaction systems, public security systems, hearing impaired aid systems, etc.
众所周知,人类讲话时的声/视觉信息之间存在密不可分的内在联系,通过观察和分析讲话人讲话时的嘴唇运动变化可以帮助推断和识别讲话内容。上述与讲述内容密切相关的嘴唇运动变化被称为唇语特征,而依靠唇语特征进行讲话内容识别的过程被称为唇读。本项目旨在深入研究唇语特征与讲述内容之间的内在联系,并以此为基础设计面向大词汇量、连续语音的自动化唇读方法。重点研究内容包括:1)准确、鲁棒、高效的嘴唇区域建模和唇语特征提取技术;2)唇语特征语义相关性和鉴别力分析;3)针对讲话人无关和多讲话人场景,设计符合唇语特征特点的大词汇量、连续语音自动化唇读机制。通过本项目的研究,对揭示依据唇语特征进行讲话内容识别的内在机理有重要的理论意义。同时,为解决视觉语音识别领域的若干难点问题提供了新的思路和方法。最后,预期成果可望在重噪声环境下语音识别、人机交互、公共安全、辅助听觉功能障碍者等领域有广阔的应用前景。
McGurk效应揭示了人类对于语言的认知和理解本身是一种双模式的过程,说话人讲述过程中声/视觉信息之间存在着密不可分的内在联系。讲话过程中的嘴唇运动变化通常被称为唇语特征,而通过观察和“阅读”讲话人的唇语特征来识别讲话内容的方法被称为唇读。本项目围绕大词汇量、连续语音场景下的自动化唇读任务,开展了系统、深入的研究,提出了一系列解决方案,对推动该领域的发展提供了新的思路和方法。项目组在嘴唇区域分割,具有语义特征的唇语特征提取和分析,符合中、英文特点的自动化唇读机制设计等方面取得了一系列的成果。具有代表性的有:1)在嘴唇区域分割方面,项目组将嘴唇分割问题定义为一种嘴唇/背景像素点的二分类问题,并结合模糊理论,创新性的提出一种基于模糊神经网络的嘴唇分割方法,能够有效的应对由不同讲话人、背景、乃至标注噪声所带来的不确定性,特别在提取嘴唇内轮廓方面相比现有方法具备较明显优势;2)在唇语特征分析和具有语义特征的唇语特征提取方面,项目组通过讲话人混淆等技术排除唇语特征之中的讲话风格信息,提取与语义密切相关的唇语特征表达,进而提升在讲话人无关场景下自动化唇读的识别准确率;3)在自动化唇读机制设计方面,项目组根据嘴唇运动的特点,在Transformer框架的基础上,提出了时空信息融合模块,能够有效提取具备语义鉴别力的嘴唇运动时空域特征,进而在大词汇量、连续语音的英文唇读任务中取得优秀的结果。与此同时,根据中文的语言特点:单字数量远多于英文字母、汉语是表意文字而英语是表音文字等,项目组设计并提出了一种基于级联Transformer架构的中文唇读网络,并分别以拼音和视位作为中间结果来缓解直接从嘴唇图像序列到中文单字之间的映射过于复杂的问题,有效提升中文唇读的效果。上述研究成果表明,通过本项目的研究,为基于唇语特征的视觉语音识别领域的发展奠定了良好的基础,也为今后相关研究指明了方向。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
维吾尔语大词汇量连续语音识别研究与实现
面向连续语音的哈萨克语关键词识别技术研究
面向并发的自动化代码重构技术研究
连续汉语语音合成的研究