Due to the shortage in Chinese-Tibetan bilingual parallel corpora, it is currently a problem in an urgent need of being researched and solved that how to reach maximum of usage existing language resources and techniques, and effectively combine multiple translation strategies for improving machine translation performance. This project will study Chinese-Tibetan contrasted grammatical information dictionary and rule base construction technology to support rule-based translation method, Chinese-Tibetan bilingual example database extraction and bilingual template library generalization technology to support example-based and templates-based translation method, statistical Chinese-Tibetan machine translation technology considering Tibetan characteristics, LSTM neural machine translation technology for Tibetan related translation, and Chinese-Tibetan machine translation integrated technology based on neural network language model. The project will focus on machine translation methods which can effectually support language with poor resources so as to solve the basic problems in Chinese-Tibetan machine translation, and build a Chinese-Tibetan machine translation system which combine rules-based, examples-based,template-based, statistical and neural methods to markedly improve the quality of Chinese-Tibetan machine translation. The knowledge bases including dictionary library, rule base, example base and template base, as well as language models established by this project will provide reliable data resources and technical support for the future research in the fields related to Chinese-Tibetan machine translation.
由于汉藏平行语言资源十分缺乏,如何最大程度地利用现有的语言资源和技术方法,有效融合多种翻译策略以提高机器翻译系统的性能,成为目前急需研究和解决的问题。本项目将通过研究支撑规则翻译方法的汉藏对照语法信息词典及规则库的构建、实例和模板翻译方法的藏汉双语实例库抽取及双语模板库泛化技术、考虑藏语特点的汉藏统计机器翻译技术、LSTM汉藏神经网络机器翻译技术以及基于神经网络语言模型的汉藏机器翻译融合技术,有效支持资源缺乏语言的机器翻译方法,解决汉藏机器翻译中面临的基本问题,建立基于规则、实例和模板、统计方法以及神经网络模型相融合的汉藏机器翻译系统,显著提高藏汉机器翻译质量。建立的词典、规则、实例和模板等知识库和语言模型将为今后汉藏机器翻译相关领域的研究提供数据资源和技术支持。
由于汉藏平行语言资源十分缺乏,如何最大程度地利用现有的语言资源和技术方法,有效融合多种翻译策略以提高机器翻译系统的性能,成为目前急需研究和解决的问题。本项目将通过研究支撑规则翻译方法的汉藏对照语法信息词典及规则库的构建、实例和模板翻译方法的藏汉双语实例库抽取及双语模板库泛化技术、考虑藏语特点的汉藏统计机器翻译技术、LSTM汉藏神经网络机器翻译技术以及基于神经网络语言模型的汉藏机器翻译融合技术,有效支持资源缺乏语言的机器翻译方法,解决汉藏机器翻译中面临的基本问题。主要成果有:构建藏汉对照语法信息词典,人工校对并完善翻译规则库,抽取并人工校对30万条藏汉双语实例短语库,建立带有Attention机制的双向LSTM机器翻译模型,最终合成一个基于规则、统计方法以及神经网络模型相融合的汉藏机器翻译系统。
{{i.achievement_title}}
数据更新时间:2023-05-31
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
货币政策与汇率制度对国际收支的影响研究
面向汉藏机器翻译的大规模双语语料库构建技术研究
汉藏双语跨语言语音转换中的关键技术研究
基于深度学习的汉藏双语语音合成的研究
基于本体的多策略民汉机器翻译研究