Speech question answering system involves the frontier and topical issues about speech recognition, semantic understanding, named entity recognition and relation extraction in the field of Artificial Intelligence. This project will research Mongolian speech question answering system based on deep learning framework. Five key technologies will be studied in this project including Mongolian speech recognition with deep learning, word embedding for Mongolian, Mongolian named entity recognition, Mongolian entities relation extraction and Mongolian speech synthesis with hybrid methods. We will build a knowledge graph about Mongolian travel domain and a Mongolian speech question answering system with cloud service under our rich experiences of Mongolian information processing. After that, we will test the effectiveness of our proposed system. The users of Mongolian spear over China, Mongolia, and Russia. Mongolian in Mongolia and China has the same pronunciation while the scripts are different. The research on this project is highly significance in both theory and practice. Our system will not only promote economic development in minority area and countries in "The Belt and Road Initiative", but also benefit the culture exchange between China and Mongolia.
语音问答系统涉及到语音识别,语义理解,命名实体识别和关系抽取等人工智能领域前沿热点问题。本项目以深度学习为框架,研究蒙古语语音问答系统,具体包括蒙古语语音识别优化方法,符合蒙古文构词特点的词向量技术,蒙古文实体识别与关系抽取以及基于混合策略的蒙古语语音合成技术。课题组将充分利用在蒙古文信息处理方面积累的研究经验,并借鉴英语、汉语等先进的研究方法,构建面向旅游领域的蒙古文知识库,搭建一个基本能用的基于云平台的蒙古语语音问答系统,并验证整个系统设计的有效性。蒙古语使用者分布于中国,蒙古和俄罗斯等地,中蒙两国的蒙古语属于“语同文不同”。开展本项目的研究不仅具有重要的理论意义,而且对推动边疆少数民族地区经济社会发展,促进中蒙两国文化旅游交流和“一带一路”建设具有现实意义。
蒙古语是一个跨多国、多地区的语言,在国际上是有广泛影响的一种语言文字,使用者分布在中国、蒙古国和俄罗斯等国家。中国和蒙古国使用的蒙古语言文字是“语同文不同”。本项目针对蒙古语语音问答技术所涉及到的蒙古语语音识别模型优化、基于深度学习的蒙古文词向量、蒙古文知识库构建、蒙古文知识库表示与答案搜索、基于深度神经网络的蒙古语混合语音合成方法等一系列关键问题进行了研究。课题组提出了基于注意力机制的TDNN-LSTM混合模型蒙古语语音识别框架,搭建了蒙古语大词汇量连续语音识别系统,单词识别正确率达到了93%以上。实现了旅游领域命名实体识别系统,实体识别F值达到93.19%。提出了基于FastSpeech2模型的完全非自回归的实时、高保真蒙古语语音合成模型MonTTS,并使用该方法搭建了蒙古文语音合成系统,MOS值达到了4.53。课题组构建了约40小时的蒙古语语音合成语料库,新增735小时的蒙古语语音库和对应标注库,整理了蒙古文旅游领域常用问答句对共8000句,并构建了蒙古文旅游领域的知识图谱。构建了具有84607个实体,包括人名、景点名等5大类、18小类的旅游领域的命名实体库。课题组发表了25篇学术论文,其中在IEEE/ACM TRANSACTIONS ON AUDIO, SPEECH, AND LANGUAGE PROCESSING、Neural processing letters、ICASSP、InterSpeech等本领域著名期刊和国际会议上发表了14篇学术论文,被SCI、EI检索论文17篇,CSCD收录论文2篇。已获得授权发明专利3项。培养了博士研究生5名,硕士研究生10名。本项目取得的研究成果对具有黏着性特点的语言、数据稀缺语言提供了可借鉴的方法,对少数民族语言智能信息化和内蒙古自治区智能信息产业的发展起到了重要的推动作用,对促进中蒙两国文化旅游交流,推进“一带一路”倡议具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
基于深度学习的单通道语音混响消除技术研究
噪声环境下基于深度学习的低速率语音编码技术研究
基于大数据深度语义表示学习的农业智能问答研究
基于深度学习的汉藏双语语音合成的研究