面向大词汇量连续语音的自动化唇读技术研究

基本信息

批准号：61771310

项目类别：面上项目

资助金额：60.00

负责人：王士林

学科分类：

依托单位：上海交通大学

批准年份：2017

结题年份：2021

起止时间：2018-01-01 - 2021-12-31

项目状态：已结题

项目参与者：Alan Wee-Chung Liew,郭浩楠,陈朔,王西子,顾雨舟,胡尊丽,程峰,黄潇洒,廖建国

关键词：

唇读嘴唇分割唇语特征视觉语音识别

结项摘要

It is well-known that during pronunciation, there is intrinsic relationship between the audio and visual information of the speaker. By observing and analyzing the lip movements during utterance can help infer and recognize the speaking content. The above content-related lip movements are referred to as lip features and speech recognition based on lip features is called lip-reading. In this project, the relationship between the lip features and the speech content will be studied comprehensively and a series of large-vocabulary, continuous visual speech recognition approaches will be proposed. The major research focuses of the project lie in: i) Accurate and robust lip region segmentation, modeling, and lip feature extraction techniques; ii) Content-related discriminative ability analysis on the lip features; iii) Large vocabulary, continuous visual speech recognition schemes for speaker-independent and multi-speaker scenarios. This project will help disclose the underlying mechanism of speech recognition by lipreading. Furthermore, it will also provide new ideas and feasible solutions for those challenging problems in visual speech recognition. Finally, the expected research results can have broad applications in speech recognition systems in noisy environments, human-computer interaction systems, public security systems, hearing impaired aid systems, etc.

众所周知，人类讲话时的声/视觉信息之间存在密不可分的内在联系，通过观察和分析讲话人讲话时的嘴唇运动变化可以帮助推断和识别讲话内容。上述与讲述内容密切相关的嘴唇运动变化被称为唇语特征，而依靠唇语特征进行讲话内容识别的过程被称为唇读。本项目旨在深入研究唇语特征与讲述内容之间的内在联系，并以此为基础设计面向大词汇量、连续语音的自动化唇读方法。重点研究内容包括：1）准确、鲁棒、高效的嘴唇区域建模和唇语特征提取技术；2）唇语特征语义相关性和鉴别力分析；3）针对讲话人无关和多讲话人场景，设计符合唇语特征特点的大词汇量、连续语音自动化唇读机制。通过本项目的研究，对揭示依据唇语特征进行讲话内容识别的内在机理有重要的理论意义。同时，为解决视觉语音识别领域的若干难点问题提供了新的思路和方法。最后，预期成果可望在重噪声环境下语音识别、人机交互、公共安全、辅助听觉功能障碍者等领域有广阔的应用前景。

项目摘要

McGurk效应揭示了人类对于语言的认知和理解本身是一种双模式的过程，说话人讲述过程中声/视觉信息之间存在着密不可分的内在联系。讲话过程中的嘴唇运动变化通常被称为唇语特征，而通过观察和“阅读”讲话人的唇语特征来识别讲话内容的方法被称为唇读。本项目围绕大词汇量、连续语音场景下的自动化唇读任务，开展了系统、深入的研究，提出了一系列解决方案，对推动该领域的发展提供了新的思路和方法。项目组在嘴唇区域分割，具有语义特征的唇语特征提取和分析，符合中、英文特点的自动化唇读机制设计等方面取得了一系列的成果。具有代表性的有：1）在嘴唇区域分割方面，项目组将嘴唇分割问题定义为一种嘴唇/背景像素点的二分类问题，并结合模糊理论，创新性的提出一种基于模糊神经网络的嘴唇分割方法，能够有效的应对由不同讲话人、背景、乃至标注噪声所带来的不确定性，特别在提取嘴唇内轮廓方面相比现有方法具备较明显优势；2）在唇语特征分析和具有语义特征的唇语特征提取方面，项目组通过讲话人混淆等技术排除唇语特征之中的讲话风格信息，提取与语义密切相关的唇语特征表达，进而提升在讲话人无关场景下自动化唇读的识别准确率；3）在自动化唇读机制设计方面，项目组根据嘴唇运动的特点，在Transformer框架的基础上，提出了时空信息融合模块，能够有效提取具备语义鉴别力的嘴唇运动时空域特征，进而在大词汇量、连续语音的英文唇读任务中取得优秀的结果。与此同时，根据中文的语言特点：单字数量远多于英文字母、汉语是表意文字而英语是表音文字等，项目组设计并提出了一种基于级联Transformer架构的中文唇读网络，并分别以拼音和视位作为中间结果来缓解直接从嘴唇图像序列到中文单字之间的映射过于复杂的问题，有效提升中文唇读的效果。上述研究成果表明，通过本项目的研究，为基于唇语特征的视觉语音识别领域的发展奠定了良好的基础，也为今后相关研究指明了方向。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.3778/j.issn.1002-8331.1911-0012

发表时间：2020

DOI：10.6041/j.issn.1000-1298.2022.07.022

发表时间：2022

DOI：10.3778/j.issn.1673-9418.2104120

发表时间：

DOI：10.11936/bjutxb2021010011

发表时间：2021

DOI：10.15957/j.cnki.jjdl.2022.03.003

发表时间：2022

王士林的其他基金

批准号：61271319

批准年份：2012

资助金额：70.00

项目类别：面上项目

批准号：60702043

批准年份：2007

资助金额：16.00

项目类别：青年科学基金项目

相似国自然基金

维吾尔语大词汇量连续语音识别研究与实现

批准号：60762006

批准年份：2007

负责人：吾守尔·斯拉木

学科分类：F0111

资助金额：17.00

项目类别：地区科学基金项目

面向连续语音的哈萨克语关键词识别技术研究

批准号：61462084

批准年份：2014

负责人：达吾勒·阿布都哈依尔

学科分类：F0211

资助金额：45.00

项目类别：地区科学基金项目

面向并发的自动化代码重构技术研究

批准号：60903026

批准年份：2009

负责人：钱巨

学科分类：F0203

资助金额：18.00

项目类别：青年科学基金项目

连续汉语语音合成的研究

批准号：68775010

批准年份：1987

负责人：杨家源

学科分类：F0605

资助金额：2.50

项目类别：面上项目

面向大词汇量连续语音的自动化唇读技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

针对弱边缘信息的左心室图像分割算法

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于直观图的三支概念获取及属性特征分析

城市生活垃圾热值的特征变量选择方法及预测建模

泛"胡焕庸线"过渡带的地学认知与国土空间开发利用保护策略建构

王士林的其他基金

唇语特征在身份认证中若干关键技术研究

基于动态嘴唇特征分析的讲话人身份认证技术研究

相似国自然基金