基于语谱图信息的汉语词汇整体识别和语音增强方法研究

基本信息
批准号:61471111
项目类别:面上项目
资助金额:75.00
负责人:王双维
学科分类:
依托单位:东北师范大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:梁士利,刘天星,高志华,李慧艳,宫姗,张峰,赵星博,于海宁
关键词:
语音增强语音识别语音信息处理声信号处理
结项摘要

In general, non-stationary random character is always used in speech processing technologies such as speech recognition and speech enhancement. And short-time speech frame of 10-30ms is always adopted as basic processing unit in these technologies. However, the integrity of Chinese syllable is destroyed by this method and the speech processing performance is affected inevitably. In this project, speaker dependent Chinese words entirety speech recognition, Chinese character tone recognition, same semantics spectrogram geometric transformation of different speaker, speech enhancement method and the basic algorithm system of these which are based on spectrogram image information platform will be studied. The research of the project contributes to the entirety speech recognition of Chinese words, phrase and sentence efficiently. The study on Chinese character tone recognition also can be the foundation of Chinese emotion recognition. Speaker-independent semantics recognition can be realized by same semantics spectrogram geometric transformation of different speaker. And since the spectrogram is chosen as research data platform it is relatively easy to separate the signal and noise on frequency area. That is helpful to improve the performance of speech enhancement.

无论语音识别还是语音增强,常规语音处理技术通常利用语音信号属于非平稳随机过程这一特性,以10-30ms的短时语音帧为基本单位进行处理。但这种分割方法破坏了音节承载信息的整体性,在一定程度上影响了语音处理的效果。本项目拟以语谱图解析为信息平台,系统研究特定人汉语语音词汇整体识别、单字声调识别、不同说话人同语义语谱图转换,及语音增强方法,并形成相应的基本算法体系。该项目成果有利于实现汉语语音字、词、句的整体识别,提高汉语识别效率;对汉语单字发音的声调识别,为汉语情感识别和汉语方言识别提供基础;利用几何变换,对同语义不同说话人语谱图的相互转换,可以达到非特定人语义单模版识别的目的;采用语谱图为信息平台,可以使得音频样本中相同频域区间的信号与噪声,在图像频域中实现信噪频位分离,大大提高语音增强效果。

项目摘要

本项目以语谱图解析为信息平台,系统研究汉语语音词汇整体识别及语音增强方法。. 采用了语谱图本身和语谱图二次傅立叶变换后进行分带投影,以及语谱图小波分析,提取特征值形成特征向量,用支持向量机作为分类器,进行语义识别研究。语音正确识别率达到92.4% ~ 96.8%之间。. 应用经验模态分解法进行语音识别工作,将待识别语音进行经验模态分解,将得到的本征态时频谱图合成为“希尔伯特语谱图”。我们对希尔伯特语谱图进行分带计数,应用支持向量机作为分类器,得到特定人二字词语音识别率平均为97.2%的结果。. 利用压缩感知算法降低数据采集量这一特性,提出一种新的基于语谱图的车载语音识别算法,其预算次数仅为原方法的2%。. 提出了一种既显示时频分析的幅频特性,又包含其相频信息的语音时频分析可视化形式,我们将其称之为“全信息语谱图”(Holographic Speech Spectrograms),简称HSS图。这种语谱图利用RGB颜色模型实现HSS。HSS根据生成程序逆操作可以实现语音重构。该成果所申请的发明专利已获授权。. 基于语谱图的语音增强研究。在形态学中,每个灰度图像都被看做是一个拓扑地貌高度。对于一个给定的地貌高度值H,阈值运算构造图像的强度为H的二值化子图。在白噪声背景下的语音语谱图,语音与噪声在语谱图二值子图平均值变化曲线中就会形成拐点,利用噪声与信号语谱图的这种特性,我们可以将语谱图中低于噪声上限的成分置零,再进行语音重构实现语音增强的目的。我们称之为“数学形态学阈值法语音增强”。该方法已形成论文发表。. 应用掩蔽效应的小尺度空间语音增强研究初探。在实际生活中往往存在着空间范围内噪声干扰下的语音识别需求。针对该问题,我们进行了小尺度空间内的语音增强研究。在噪声环境下加入掩蔽声,并对掩蔽声环境的声信号使用行语言清晰度指数计算,语言清晰度指数会不同程度的增加。. 基于语谱图的人体肺音识别。提出了一种基于语谱图矩阵的行投影方法对人体肺音的种类进行识别,特定肺音种类的识别率达到82.2%。该项工作已形成论文发表。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
4

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

王双维的其他基金

相似国自然基金

1

中等噪声下大词汇汉语音识别研究

批准号:69175005
批准年份:1991
负责人:朱思俞
学科分类:F0605
资助金额:3.50
项目类别:面上项目
2

维吾尔语大词汇量连续语音识别研究与实现

批准号:60762006
批准年份:2007
负责人:吾守尔·斯拉木
学科分类:F0111
资助金额:17.00
项目类别:地区科学基金项目
3

基于知识的汉语连续语音识别和理解

批准号:69072924
批准年份:1990
负责人:戴蓓倩
学科分类:F0211
资助金额:4.00
项目类别:面上项目
4

基于发音特征的汉语语音识别分层解码方法研究

批准号:61503382
批准年份:2015
负责人:杨占磊
学科分类:F0605
资助金额:22.00
项目类别:青年科学基金项目