故事自动化分割是实现新闻广播检索技术的先决条件。本项目旨在突破现有研究照搬英文方法的局限,探索更加适合中文新闻广播故事自动分割的新思想和新途径。首先,考虑汉字声调现象对基频等韵律特征的影响,提出声调归一化的中文韵律特征。利用中文组词灵活、分词多样和同音异形字众多的特点,提出在子词单元(汉字、音节)上进行词汇黏合关系度量的方法。其次,为缓解语音识别错误对故事分割正确性的影响,提出在语音识别网格上进行黏合关系测量的方法,从多个识别结果候选中修补由于识别错误而破损的词汇黏合关系。最后,针对固定信赖度不能反映各信息源对融合贡献不断变化的问题,提出采用分类器后验概率熵倒数作为信息源动态信赖度指标,对各信息源(声学信息、词汇信息)进行动态融合的新闻分割方法,既避免了固定信赖度对数据的过度依赖,又反映了各信息源的信赖程度随时间不断变化的事实。通过本项目的研究,提高中文新闻广播故事分割的自动化水平和性能。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
中文自动口语摘要技术研究
中文文献自动分类技术研究
中文文本自动分类关键技术研究
中文情感资源自动构建的关键技术研究