Structured knowledge of natural languages at syntactic and discourse levels is one kind of the most important features of natural languages. Statistical syntax-based machine translation treats machine translation as a process of converting source structures to target ones at single sentence level. Therefore, cross-language structure divergence and cross-sentence discourse information deficiency are two fundamental issues for the state-of-the-art statistical syntax-based machine translation. This proposal aims to focus on the following researches to address the two fundamental issues aforementioned: 1) from bilingual alignment and mapping viewpoints, study weakly-supervised and unsupervised bilingual grammar induction algorithms, automatically construct machine translation-oriented bilingual grammar rule systems and mapping mechanisms in order to solve the cross-language structure divergence issue; 2) establish the discourse-based model for statistical machine translation in order to impose consistent discourse structures and fundamental discourse features between source and target languages, and thus fill in the discourse information deficiency in the state-of-the-art statistical machine translation research. The research achievements from this proposal will establish the foundation of theory and technology for next generation syntax-based statistical machine translation, and provide guidance to deep semantic structures-based statistical machine translation in the future.
语言的结构性,包括句法和篇章等结构信息,是语言的基本特征之一。统计句法机器翻译把翻译看作是一个从源语言到目标语言的句法结构转换过程,而这种转换过程目前是以单一句子为基本单位进行的。因此,跨语言句法结构差异性和跨句子篇章结构信息的缺失是目前统计句法机器翻译面临的两个核心问题。本项目拟围绕这两个问题展开以下创新性研究:1)从双语映射角度出发,研究弱指导和无指导的双语句法推导算法,自动构建适合机器翻译的双语句法规则体系和映射机制,进而解决跨语言句法结构差异性;2)建立篇章级翻译模型,使得源语言篇章结构信息和篇章基本特征在目标语言中得到体现,使生成的目标语言具有良好的篇章一致性,进而填补机器翻译中篇章信息缺失这一研究空白。本项目预期成果不仅可以为下一代统计句法机器翻译奠定理论和技术基础,同时也可以为未来基于深层语义结构信息的统计机器翻译提供借鉴。
本项目研究语言间的结构性差异,从句法级别和篇章级别研究双语间的差异并对此建模,从而使统计机器翻译模型更好地处理跨语言句法结构差异性和跨句子篇章结构信息的缺失问题。本项目分别从两个方面开展研究:1)从双语句法映射角度出发,研究基于弱指导和无指导的双语句法推导,从而解决跨语言句法结构差异性;2)从双语篇章结构的映射角度出发,研究双语篇章话题分布以及双语篇章词汇语义等连接关系,从而改进机器翻译篇章级别的一致性和准确性。这两个方面的研究为统计机器翻译提供了理论和技术基础,在国际顶级学术期刊和学术会议发表论作,并就句法结构分析和机器翻译研究分别出版了两本专著,为未来基于深层语义结构信息的机器翻译研究提供参考和借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
古戏台传音的秘密
基于篇章语义的文档级统计机器翻译研究
基于深度句法的统计机器翻译方法研究
基于句法结构和语义框架的机器翻译自动评价方法研究
基于主干成分的句法统计机器翻译模型研究