面向多媒体信息检索的语音处理关键技术研究

基本信息
批准号:60972132
项目类别:面上项目
资助金额:29.00
负责人:贺前华
学科分类:
依托单位:华南理工大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:王伟凝,李韬,杨继臣,奉小慧,李威,刘娇蛟,徐益君,杨焯砚,张俊如
关键词:
说话人信息非文字语音信息关键音段多媒体信息检索
结项摘要

多媒体信息已经成为互联网的主体信息之一,目前基于内容的检索技术研究重点是图像、视频及音乐;对语音信息,一般采用语音识别技术将语音转换成文本,然后采用文本检索的方式加以处理。而ASR所得到的转换文本存在识别不准确、集外词、结构信息和非文字信息丢失等多种缺陷。如何直接利用语音信息提高多媒体检索效率和人机交互的友好性没有得到足够的重视。针对这些问题,本课题重点研究1)多媒体中音频分割及分类;2)关键音段确定; 3)说话人信息提取方法及其在信息检索中的应用;4)语音信息和视频信息在多媒体检索中的相互作用方式。 .本课题有非常明确的应用前景:多媒体检索。理论上也具有很大的挑战性,研究内容日益得到人们的重视,对加快我国信息产业的发展有重要作用。预期发表学术论文10篇,申报专利1项。

项目摘要

本课题共发表标注学术论文25篇(11篇被检索),其中期刊论文15篇,会议论文10篇;培养青年教师6名, 博士研究生6名(3名已毕业),硕士研究生12名(10名已毕业),申请国家发明专利2件,其中一项参与PCT,另有2件实用新型专利。. 本课题围绕多媒体信息检索中的语音信号处理关键问题:音频分割及分类、关键音段定义及检测、说话人信息分析及应用以及音视频信息的融合应用开展研究,取得了一定的阶段性成果。同时为了本课题及今后的研究建设了相当规模的语音数据库,数据库包括跃50小时的会议录音、18个月的中央新闻联播、约为20小时的电视剧及体育竞赛、以及约14小时的非正常身体状况下的语音四个方面的内容。所有的语音数据均根据课题研究的需要进行了标注。.在音频分割及分类方面,主要考虑了语音和非语音的分割问题,因为从复杂的音频环境中检测出语音信号是进行说话人辨识和语音识别的前提,非语音方面重点检测呼吸声、咳嗽声、掌声、笑声、喧哗声、咂嘴声等具有一定语义的音频对象,比如笑声表示一种欢乐的场景,发表相关学术论文8篇。. 说话人信息分析及应用方面,重点研究说话人改变检测、依据说话人的语音聚类方法研究,为多媒体信息构建说话人信息索引提供了依据。提出了一种两步判决的说话人分割方法,开展了无监督的说话人谱聚类方法;探索了基于说话人频次、说话人持续时间、平均每次说话人时长和说话人位置因子四个因素相结合的说话人关键度定义方法,把每个故事中说话人关键度最大的人作为关键说话人,有效地降低了索引量;并开展了结合GMM、Jensen’s不等式和BIC判决的说话人索引方法。发表相关学术论文6篇。. 音视频信息的综合应用方面,本课题探索了了一些常规的视频分析方法,比如镜头、故事检测等,为音视频结合提供基本条件。主要成果是构建了一个完整的多媒体检索系统,提供基于音频样本、视频样本、图像样本和视频屏幕文字检索四种高级检索方式,同时还提供基于日期和关键词的常规检索方式,对本课题的研究成果进行了比较全面的评估。并发表了相关学术论文3篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
2

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
3

Wnt 信号通路在非小细胞肺癌中的研究进展

Wnt 信号通路在非小细胞肺癌中的研究进展

DOI:
发表时间:2016
4

基于LBS的移动定向优惠券策略

基于LBS的移动定向优惠券策略

DOI:10.3969/j.issn.1005-2542.2020.02.009
发表时间:2020
5

人β防御素3体内抑制耐甲氧西林葡萄球菌 内植物生物膜感染的机制研究

人β防御素3体内抑制耐甲氧西林葡萄球菌 内植物生物膜感染的机制研究

DOI:
发表时间:2017

贺前华的其他基金

批准号:69881001
批准年份:1998
资助金额:13.00
项目类别:专项基金项目
批准号:60172064
批准年份:2001
资助金额:18.00
项目类别:面上项目
批准号:61571192
批准年份:2015
资助金额:68.00
项目类别:面上项目
批准号:60572141
批准年份:2005
资助金额:24.00
项目类别:面上项目

相似国自然基金

1

面向实际应用的维吾尔语语音检索关键技术研究

批准号:61662078
批准年份:2016
负责人:米吉提·阿不里米提
学科分类:F0211
资助金额:41.00
项目类别:地区科学基金项目
2

面向英汉双向跨语言信息检索的若干自然语言处理底层关键技术研究

批准号:60773124
批准年份:2007
负责人:张玥杰
学科分类:F0211
资助金额:24.00
项目类别:面上项目
3

面向关联数据的信息检索关键技术研究

批准号:61672361
批准年份:2016
负责人:刘杰
学科分类:F0211
资助金额:63.00
项目类别:面上项目
4

人机协同的多媒体实例检索关键技术研究

批准号:61876135
批准年份:2018
负责人:梁超
学科分类:F0608
资助金额:62.00
项目类别:面上项目