In machine translation, learning embedding representation of text has great significance for alleviating data scarcity and exploiting deep-level semantic knowledge. However, previous studies face the challenge of difficulties, including how to learn embedding representations of bilingual texts and how to explore semantic relations among different levels of texts. To resolve these difficulties, in this project, we plan to make deep studies of multi-level text embedding representation for machine translation by using multi-lingual multi-level semantic information. The major work of this project includes (1) Graph-based bilingual word embedding representation learning; (2) Bidirectional attention-based bilingual phrase embedding representation learning; (3) Lattice-based long short term memory neural network for sentence embedding representation learning; (4) Hierarchical recurrent neural network with topic information for document embedding representation learning; (5)The research on machine translation incorporating multi-level text embedding representations. Our project fully exerts the advantage of deep learning, which brings a new insight into making breakthroughs via better text embedding representation learning, and thus has an important theoretical and practical significance for machine translation.
在机器翻译任务中,文本嵌入表示学习对缓解数据稀疏和使用深层次语义知识具有重要意义。然而,现有研究面临着双语文本嵌入表示学习难度大,不同层次文本之间语义关系不易建模的难题。对此,本项目拟对如何利用多语言多层次语义信息来学习面向机器翻译的文本嵌入表示展开深入研究。项目主要工作包括:(1)基于图结构的双语词汇嵌入表示学习;(2)基于双向注意机制的双语短语嵌入表示学习;(3)基于词图的长短时记忆神经网络句子嵌入表示学习;(4)融入主题信息的层次循环神经网络文档嵌入表示学习;(5)引入多层次文本嵌入表示的机器翻译建模研究。项目充分发挥了深度学习的优势,它的开展将为如何更好地利用文本嵌入表示学习来解决传统机器翻译面临的瓶颈问题提供一种新的思路,对机器翻译的研究发展和产业化应用具有重要意义。
在机器翻译任务中,文本嵌入表示学习对缓解数据稀疏和使用深层次语义知识具有重要意义。然而,现有研究面临着双语文本嵌入表示学习难度大,不同层次文本之间语义关系不易建模的难题。对此,本项目拟对如何利用多语言多层次语义信息来学习面向机器翻译的文本嵌入表示展开深入研究。在项目实施过程中,课题组主要开展了以下研究工作:(1)基于图结构的双语词汇嵌入表示学习;(2)基于双向注意机制的双语短语嵌入表示学习;(3)基于词图的长短时记忆神经网络句子嵌入表示学习;(4)融入主题信息的层次循环神经网络文档嵌入表示学习;(5)引入多层次文本嵌入表示的机器翻译建模研究。项目充分发挥了深度学习的优势,它的开展将为如何更好地利用文本嵌入表示学习来解决传统机器翻译面临的瓶颈问题提供新的思路,对机器翻译的研究发展和产业化应用具有重要意义。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于细粒度词表示的命名实体识别研究
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于图卷积网络的归纳式微博谣言检测新方法
一种改进的多目标正余弦优化算法
面向机器翻译的文本领域识别
面向多层次篇章语义的机器翻译理论、方法与实现
面向神经机器翻译的结构学习方法研究
基于文本表示学习的金融市场行情预测方法研究