基于结构建模的语音理解及应用研究

基本信息
批准号:61300197
项目类别:青年科学基金项目
资助金额:20.00
负责人:张剑
学科分类:
依托单位:东莞理工学院
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:陈倩,赵维佺,侯家利,陈扬扬,何文斌,林楠
关键词:
语音理解语音摘要语音文档结构建模
结项摘要

Speech Understanding (SU) is a young and under-exploited research field based on Automatic Speech Recognition (ASR) and Natural Language Understanding (NLU). In the proposal, our research work focuses on how to apply structural modeling technology for speech understanding and summarization, which can help users understand speech documents faster and more exactly by hidden structure information extracted from speech documents. More and more researchers take their interests in this topic. Considering that speech recognition result is not reliable, traditional structural modeling algorithms only using transcribed text do not perform well due to recognition errors by speech recognition system. To handle this challenge, we investigate sorts of features extracted from speech signal and transcribed documents and select the best ones to extract the hidden structure information from speech documents. We then propose novel algorithms based on traditional machine learning algorithms for structure extraction process and further using structure information to improve the performance of speech understanding and summariztion task. We will evaluate the proposed algorithms on the lecture conference speech corpus. On one hand, using our proposed algorithms can extract structure information hidden in speech documents more effectively and then help us more conveniently understand and summarization speech documents. On the other hand, our proposed speech understanding system using structural modeling can offer better theoretical support and a practical approach for huge multimedia documents management and security.

近年来发展的语音理解是建立在语音识别和自然语言理解之上的新兴研究领域。本项目主要研究基于结构建模的语音理解与摘要技术,以能够帮助人们从语音文档中抽取出隐含的结构信息,更快速准确地理解语音文档,已成为本领域研究热点和前沿。由于语音识别技术的不完善,所生成文本含有不准确之处,对传统的基于文本结构建模是极大的挑战。针对此问题,本项目将在特征提取、模型算法及应用方面,在现有工作基础上进行深入研究:分析深层次语音文档结构,寻找对抽取语音文档结构帮助更大的新特征;应用不同的机器学习算法,提高抽取语音文档结构的性能,并运用抽取的结构信息,改善语音理解与摘要抽取的性能;将新算法应用于演讲语音领域。通过本项目的研究,一方面能够建立更有效的针对深层次语音文档结构建模的新算法,提高抽取语音摘要的性能与效率;另一方面基于结构建模的语音理解为海量语音文档管理与安全提供更好的理论支持与实用途径。

项目摘要

本项目主要研究了基于结构建模的语音理解与摘要技术,用于帮助人们从语音文档中抽取出隐含的结构信息,更快速准确地理解语音,该研究问题已成为本领域的研究热点和前沿。.本项目从特征提取、模型算法及应用等方面进行了深入的研究。主要研究成果如下:(1)对有关语音理解及摘要提取的最新研究文献进行了广泛的调研与深入考察;(2)研究了在不同文体的语音数据库上的语音理解与摘要算法的性能,并比较了各类特征的作用。在不同形式的两类语音文档:中文广播语音文档和粤语会议语音文档,进行了评测实验。结果显示:在进行中文广播语音文档摘要提取实验中,结构信息特征要优于文法信息特征。这是由于广播新闻语音文档潜在的结构信息相对稳定;(3)比较了不同机器学习算法基于不同特征所构建摘要模型的性能表现。所得到性能最优的摘要模型其性能于中文广播新闻文档实验中,达到0.682 ROUGE-L F-measure,而于粤语会议文档实验中,达到了0.737 ROUGE-L F-measure,均属国际水平。此外,在粤语会议文档摘要抽取实验中,基于自动语音识别率仅为73%的语音抄本,所构建的摘要模型仍然能达到0.729 ROUGE-L F-measure的高水平;(4)对文本信息特征中所使用的词条权重算法进行了全面性能比较,并将生成的不同的文本信息特征用于自动语音摘要实验中进行评测。比较了多种不同的无监督和有监督学习的词条权重算法,并将不同算法所生成文本特征,通过最大票数策略进行了综合应用,以构建最有效的摘要模型。实验结果表明该策略有效。同时发现Term Relevance Ratio方法所生成的文本信息特征,能构建出最优的摘要模型。 .通过本项目的研究,一方面建立了更有效的针对深层次语音文档结构建模的新算法,提高了抽取语音摘要的性能与效率;另一方面对于将该算法应用于海量语音文档的理解以及组织管理方面,提供了更好的理论支持与实用途径,并做了实验验证。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
3

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022
4

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察

DOI:10.3969/j.issn.1674-0858.2020.04.30
发表时间:2020
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

张剑的其他基金

批准号:71771022
批准年份:2017
资助金额:46.00
项目类别:面上项目
批准号:61303143
批准年份:2013
资助金额:26.00
项目类别:青年科学基金项目
批准号:81101499
批准年份:2011
资助金额:24.00
项目类别:青年科学基金项目
批准号:81070382
批准年份:2010
资助金额:30.00
项目类别:面上项目
批准号:11874028
批准年份:2018
资助金额:64.00
项目类别:面上项目
批准号:81803368
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:20602040
批准年份:2006
资助金额:26.00
项目类别:青年科学基金项目
批准号:81860183
批准年份:2018
资助金额:35.00
项目类别:地区科学基金项目
批准号:81360156
批准年份:2013
资助金额:48.00
项目类别:地区科学基金项目
批准号:30970896
批准年份:2009
资助金额:29.00
项目类别:面上项目
批准号:31001004
批准年份:2010
资助金额:20.00
项目类别:青年科学基金项目
批准号:31771043
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:71071017
批准年份:2010
资助金额:27.00
项目类别:面上项目
批准号:30800360
批准年份:2008
资助金额:22.00
项目类别:青年科学基金项目
批准号:71603305
批准年份:2016
资助金额:17.00
项目类别:青年科学基金项目
批准号:41461012
批准年份:2014
资助金额:50.00
项目类别:地区科学基金项目
批准号:61105089
批准年份:2011
资助金额:20.00
项目类别:青年科学基金项目
批准号:31100171
批准年份:2011
资助金额:21.00
项目类别:青年科学基金项目
批准号:30801128
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目
批准号:70771009
批准年份:2007
资助金额:19.00
项目类别:面上项目
批准号:81371707
批准年份:2013
资助金额:70.00
项目类别:面上项目
批准号:11204153
批准年份:2012
资助金额:24.00
项目类别:青年科学基金项目
批准号:81801640
批准年份:2018
资助金额:21.00
项目类别:青年科学基金项目
批准号:31371056
批准年份:2013
资助金额:75.00
项目类别:面上项目

相似国自然基金

1

汉语语音理解系统

批准号:68673013
批准年份:1986
负责人:黄泰翼
学科分类:F02
资助金额:2.00
项目类别:面上项目
2

基于知识的汉语连续语音识别和理解

批准号:69072924
批准年份:1990
负责人:戴蓓倩
学科分类:F0211
资助金额:4.00
项目类别:面上项目
3

基于DBN协同建模的中文及跨语种语音结构事件检测研究

批准号:61175018
批准年份:2011
负责人:谢磊
学科分类:F0605
资助金额:59.00
项目类别:面上项目
4

融合耳蜗—神经元响应机制的听觉建模及语音识别应用研究

批准号:61906095
批准年份:2019
负责人:冯天荃
学科分类:F0605
资助金额:24.00
项目类别:青年科学基金项目