基于唇动视觉特征的话语内容识别方法研究

基本信息
批准号:61571013
项目类别:面上项目
资助金额:69.00
负责人:鲁远耀
学科分类:
依托单位:北方工业大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:范锦宏,卢开宏,刘志坚,耿松,周腾鹤,郭振芳
关键词:
图像识别视觉特征
结项摘要

The speech content recognition based on visual features of lip movement mines and recognizes the speech content of a speaker,utilizing visual dynamic information of mouth. This is a cutting-edge research direction for image processing and pattern recognition, full of novelty, foresight and challenges. The performance of conventional speech recognition system declines dramatically under noisy circumstances or complicated background. Image sequence of lip movements provides a lot of information to mine and recognize speech content. Firstly, the project captures lip movement state accurately by locating the mouth region of a speaker, extracting and tracing lip contours. Secondly, data compression, feature extraction and information mining is applied to the mouth region image. We will use an effective classifier to implement smart verdict and classification, to realize high recognition rate of speech content. At last a speech content recognition system will be built up based on the lip movement visual features. It can achieve system simulation, verification and evaluation to the theory and method of speech content recognition. The development of this project will propose new methods and theories in the field of visual image recognition and understanding, and lay theoretical and practical foundation for the further development of intelligent human-computer interaction technology.

基于唇动视觉特征的话语内容识别,是利用人说话时嘴唇的视觉动态信息来挖掘和识别说话人话语内容的方法,是图像处理和模式识别的一个前沿研究方向,具有很强的新颖性、前瞻性和挑战性。传统的基于音频的语音识别在噪声环境中或复杂背景下,识别性能会急剧下降。嘴唇运动的图像序列包含有丰富且可挖掘的话语内容信息。项目首先通过对视频图像中说话人的嘴唇区域定位、唇部轮廓提取和跟踪,实现嘴唇动作状态的精确捕捉。其次对嘴唇区域图像进行数据压缩、特征提取和信息挖掘,然后通过设计高效的分类器来对提取出的唇动视觉信息进行智能判决分类,以此实现对说话人话语内容的有效识别。最后构建一个基于唇动视觉特征的话语内容识别系统,对话语内容识别理论和方法进行系统仿真、验证和评估。本项目的顺利开展,可在视觉图像识别和理解技术领域提出新的研究方法和手段,为智能人机交互技术的进一步发展奠定理论和实践基础。

项目摘要

四年前,AlphaGo系统还未问世,计算机视觉领域已经实现了指纹和人脸等二维平面图像的准确识别,人们的研究重点正在向三维视频识别技术倾斜。与此同时,语音识别作为新的人机交互方式受到了资本市场的广泛关注,但是限制于当时技术的瓶颈,语音识别的准确性并不高。所以,我们提出了基于唇动视觉特征的话语内容识别,一方面可以弥补在噪声环境下语音识别不准确的缺点,同时也是一种新型交互模式的探索。.我们从人脸识别技术入手,首先研究了基于Haar特征的人脸识别算法,以便更快地定位人脸;其次通过探索和改进主动轮廓模型算法和小波域多尺度Markov随机场方法,实现了嘴唇区域的准确分割;特征提取方面,先研究了基于模型、基于像素等的传统特征提取算法;随着研究的深入以及技术的进步,我们发现基于卷积神经网络和循环神经网络的深度学习算法,在嘴唇图像特征和时间特征提取上具有较好效果;最后,结合并改进隐形马尔科夫模型、支持向量机、Softmax等分类算法,实现了基于唇动视觉特征的话语内容识别。.通过四年努力,我们获得了比较丰富的研究成果:发表了学术论文15篇;获得了《一种嘴唇轮廓的分割及特征提取方法》发明专利,正在申请《基于自动唇语识别的听力障碍人士语音训练系统》发明专利;完成了基于视频的唇语识别系统样机,基于卷积神经网络的机顶盒唇读控制器样机,基于Raspberry Pi的移动端唇语识别系统样机等3项应用系统;发表了1篇唇语识别的高水平综述文章,为学术同行提供了这一主题的专门介绍;正在编写书籍《深度学习架构与实践》,结合项目取得的成果,为深度学习初学者和科研工作者提供入门及进阶参考书;此外,还先后培养硕士研究生12名,为计算机视觉领域提供一批技术人才。.在信息传递的方式中,通过语言来传递是最为方便有效的方式。语言信息的传递是一个声音和视觉的双模态传递过程,本项目四年的实施和取得的成果,表明我们为实现让机器“听懂”和“看懂”人说的话这一目标做出了非常有意义的贡献。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
3

空气电晕放电发展过程的特征发射光谱分析与放电识别

空气电晕放电发展过程的特征发射光谱分析与放电识别

DOI:10.3964/j.issn.1000-0593(2022)09-2956-07
发表时间:2022
4

人工智能技术在矿工不安全行为识别中的融合应用

人工智能技术在矿工不安全行为识别中的融合应用

DOI:10.16265/j.cnki.issn1003-3033.2019.01.002
发表时间:2019
5

面向工件表面缺陷的无监督域适应方法

面向工件表面缺陷的无监督域适应方法

DOI:
发表时间:2021

鲁远耀的其他基金

相似国自然基金

1

基于多视角唇动时空动态特征的身份识别研究

批准号:61401161
批准年份:2014
负责人:奉小慧
学科分类:F0116
资助金额:22.00
项目类别:青年科学基金项目
2

基于管制通话语音个体特征的管制员不良工作状态识别方法研究

批准号:U1533117
批准年份:2015
负责人:张兴俭
学科分类:F01
资助金额:34.00
项目类别:联合基金项目
3

基于唇动密码的身份鉴定技术研究

批准号:61272366
批准年份:2012
负责人:张晓明
学科分类:F0605
资助金额:80.00
项目类别:面上项目
4

基于视觉特性的多模生物特征融合识别方法研究

批准号:60972146
批准年份:2009
负责人:张新曼
学科分类:F0113
资助金额:30.00
项目类别:面上项目