For the complicated background of Uyghur spoken language,like multilingual, multi-dialect, and personalization, we will conduct a number of profound researches on the general problems surrounding practical applications of Uyghur spoken term detection techniques. Such as implementing GMM and DNN based spoken term detection methods; various confidence measure evaluation methods; linguistic unit normalization; multilingual parallel stem set based linguistic modeling. Spoken term detection techniques are more flexible than speech recognition techniques, involving a variety of techniques, thus has wide practical applicability. We will combine theory and objective evaluation through the research process of Uyghur spoken term detection. The clear multi-granularity of agglutinative languages can provide an innovative way to solve data sparsity and out-of-vocabulary problems. For the multilingual, multi-dialect problems, we will selectively apply modern techniques, and combine with confidence measure evaluation methods based on basic semantic and syntactic units: stems and morphemes. We will also emphasize generality and applicability of methods, and provide all resources and programs freely for others. This project has practical significance to the improvements of minority linguistic information processing techniques, to enhance the country's soft power, and to national unity, ethnic integrity, and social stability.
针对维吾尔语口语的多语言、多方言、个性化等复杂语音背景,从实际应用角度出发,我们将围绕着维吾尔语自发语音的语音检索问题,深入研究一系列关键技术,如:基于GMM和DNN的多种语音检索系统建立、多种置信度评价方法、语言单元的归一化、多语言实体词干库为基础的高层语言建模技术等。语音检索技术比语音识别技术更灵活、涉及面广,有广阔的应用前景。我们以理论研究和实证评测相结合的方法开展适合维吾尔语特点的语音检索技术。黏着语言多层粒度结构为基础的建模方法,在解决资源稀缺及集外词等问题上具有创新性。针对自发语音中的多语言、多方言混合现象,我们将应用多种先进技术的同时,将实体词干及词素作为基本语义及语法单元,创新性的研究各种置信度评价方法。我们将注重方法的普遍性、通用性、以及公开性原则,公布程序和数据资源。该研究在少数民族语音及语言信息的处理、提升国家软实力、以及在维护社会安定团结等方面有重要现实意义。
网络数据中,音视频听觉信息比例越来越大;多种形式、多种格式、多种语言等复杂内容给网络信息的处理带来更多的挑战。因此,研究基于复杂环境及多语种环境下的语音信息检索有重大研究意义,是众多复杂研究领域的基础。该研究在少数民族语音及语言信息的处理、以及在维护社会安定团结等方面有重要现实意义。少数民族语音信息具有多语言、多方言、个性化等复杂现象。课题组围绕着语音的检索问题,深入研究一系列关键技术。少数民族语言资源,由于规范不统一、未及时更新、缺乏标准化等原因,需要大量劳力和支撑环境。因此我们应用多种先进技术的同时,将实体词干及词素作为 基本语义及语法单元,创新性地研究维-哈-柯等少数民族语言的语音及文本信息的检索及分类技术。.作为技术成果,课题组设计并开发了维-哈-柯多语言统一用户界面的集成信息处理软件环境。该系统在多层粒度单元基础上进行声学及形态分析,将繁琐的工作集成到一个工程内,涵盖了一些列语音及文本处理支撑工具。对维-哈-柯语的词素切分准确率分别达到 96%,92%,88%。在语音检索方面,基于神经网络模型的维吾尔语语音检索结果准确率达到了89.35%;哈萨克语的语音检索结果准确率达到了82.15%。语音不仅包含了语义信息,同时也传达了说话人语种、性别、年龄、情感等多种丰富的属性信息。课题组在神经网络模型的框架内同时研究了语种识别、声纹识别、分类等技术,将多个技术融入到语音检索中,进一步对模型进行梳理和优化。课题组在RNN和CTC的基础上,第一次在多个少数民族语言上实现端到端的语音识别系统。字符错误率为14.8%,比传统单音子为建模单元的识别率低17.7%,比三音子建模的GMM-HMM系统低2.23%。基于加权词干嵌入向量特征和RNN-CNN模型的维-哈-柯多语言文本分类方法得到95%以上的分类准确率。
{{i.achievement_title}}
数据更新时间:2023-05-31
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
面向多媒体信息检索的语音处理关键技术研究
维吾尔语情感语音合成关键技术研究
维吾尔语单元集优化关键技术研究及其在语音识别中的应用
基于多级语音基元及其音律参数的维吾尔语音合成技术研究