Machine Translation (MT) is regarded as a difficult joint research topic. Currently, Rule-based Machine Translation (RBMT) and Statistical Machine Translation (SMT), which respectively embody rationalism and empiricism, have all obtained remarkable achievements and all faced their own challenges. Our proposal, which focused on the merit of both methods, is based on the full-fledged RBMT engine and large scale corpus. First, the probabilistic extension of Sub Category Grammar will be studyed. We will propose a probabilistic extension model of SC Grammar and its parameter estimation algorithm. Then, we will consider how to correct the errors in output of RBMT using SMT engine based on tree to string SMT model, especially on the application of probabilistic extension of Sub Category Grammar. Several hybrid MT schemas will be furtherly designed and analyzed. We wish the quality of translation could be improved by hybrid of RBMT and SMT methods. In summary, this project try to improve current MT techonlogy by creative extentsion of traditional methods and compositive application of distinct algorithms. We believe our study will also be valuable for MT researchs on individual rule-based or statistical methods.
机器翻译是一个多学科交叉的研究领域。目前,分别以理性主义和经验主义思想为指导的规则机器翻译(RBMT)和统计机器翻译(SMT)各自都取得了长足进展,但也都存在着一些固有问题。本项目着眼于二者之长,以较成熟的RBMT引擎、大规模语料库为依托,首先从对SC文法的概率化扩展入手,研究并提出SC文法的概率化扩展模型和对它的参数估计算法;然后,进一步研究如何通过基于树到串模型的SMT方法来自动校正RBMT引擎的错误,特别是如何借助于SC文法概率化扩展来实现SMT对译文质量的综合优化;接下来继续深入研究,设计并分析不同的多策略机器翻译模式,探索如何综合运用统计翻译或规则翻译的处理技术来取得更为优化的译文。本项目力图通过尝试对传统理论的创新扩展和对不同方法的综合运用,实现机器翻译译文质量的改进。同时,本项目的努力,对单独使用规则或统计方法的研究,特别是如何回避、克服的各方法的不足,也都将有所借鉴。
机器翻译是一个多学科交叉的研究领域,分别以理性主义和经验主义思想为指导的RBMT和SMT各自都取得了长足进展,但也都存在着一些固有问题。本项目着眼于二者之长,同时以较成熟的RBMT 引擎和大规模平行语料库为依托,首先从对SC 文法的概率化扩展入手,研究探索了SC 文法的概率化扩展模型和对它的参数估计算法;然后,进一步针对机器翻译中的长句翻译难点问题,研究采用统计学习方法与规则方法的融合,来实现对译文质量的综合优化,提出了基于依存句法的规则匹配切分方法和基于条件随机场(CRF)序列标注的切分方法,并继续深入研究两者的相互补充,共同完成对长句的切分;第三,针对串到树句法翻译模型并没有利用任何语义信息的不足,尝试在串到树模型中引入语义角色信息,提出了两种引入方式(在传统的句法树上添加角色标记,或先构建语义角色树、再在谓词-论元结构内部补充句法信息),使翻译系统能够训练和选择更好的翻译规则, BLEU和NIST分值显著提高;第四,采用多策略融合的原则研究了机器翻译中的空语类问题和词义消岐问题,将领域知识划分为文本领域和词义领域两个层次,提出了一种基于领域知识的图模型词义消歧方法,挖掘领域知识来改善消歧性能,在Koeling数据集上,与已有同类研究相比,我们的方法取得了最佳的消歧效果。总之,本项目力图通过尝试对RBMT传统理论的创新扩展和对SMT方法的综合运用,实现机器翻译译文质量的改进。同时,本项目的努力,对单独使用规则或统计方法的研究,特别是如何回避、克服的各方法的不足,也都将有所借鉴。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
拥堵路网交通流均衡分配模型
基于多模态信息特征融合的犯罪预测算法研究
卫生系统韧性研究概况及其展望
面向云工作流安全的任务调度方法
基于本体的多策略民汉机器翻译研究
基于经验记忆和类比启发搜索的多策略机器翻译方法研究
基于雕塑形体概率图文法的产品外观自动反求创新理论与方法
多策略机器翻译系统IHSMTS关键技术研究