基于中心扩展对齐的汉-英统计机器翻译研究

基本信息
批准号:60903082
项目类别:青年科学基金项目
资助金额:18.00
负责人:张春祥
学科分类:
依托单位:哈尔滨理工大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:孙立镌,于林森,孙大松,王博,蒋宏飞,高雪瑶,丁博,刘宪国
关键词:
统计机器翻译调序模型译文路径中心扩展评价特征
结项摘要

本课题研究统计机器翻译的知识获取与解码技术。提出了中心扩展的短语对齐方法,摆脱了汉、英之间语法异构性的制约。同时考虑源语言满足句法约束和不满足句法约束的短语翻译对,以覆盖更多的语言现象。提高词汇覆盖度,细化语义分类体系,利用语义知识、句法和统计信息来增加译文中心的识别率。深度挖掘汉、英语言学之间的对等关系,使用句法、词性、词形、语义和长度等属性来定义双语评价特征,揭示评价特征与短语翻译对自身特性之间的关系。在输入句子的句法树上,以调序概率和插入概率为基础来构建译文调序模型,使调序过程可以充分地利用句法边界信息。结合双语评价特征,使用最大熵算法来选择译文路径,以综合考虑多种上下文相关信息。力求降低搜索解码空间,提高机器译文输出质量,为基于句法的统计机器翻译提供一个新的解决思路。

项目摘要

本项目研究了统计机器翻译的知识获取与解码技术。对短语对齐的相关问题进行了探讨,设计了短语翻译对的标注方法。挖掘汉、英语言学之间的对等关系,使用词形、频度和长度等属性来定义双语评价特征,包括:短语译文直译率、短语翻译概率和源语言-目标语短语长度差异,以衡量汉语短语和英语短语之间的互译对等性。在短语翻译对训练数据集上,使用N-Best策略来衡量双语评价特征的性能。定义了汉语短语的译文中心,给出了译文边界的确定算法。在确定汉语短语的译文中心时,本项目采取词典对齐、译文相似度计算、语义相似度计算和统计方法循序渐进的方案。在此基础之上,提出了中心扩展的短语对齐方法,即以译文中心为基础,不断向左右两侧连续扩展目标语单词,以生成源语言短语的目标语候选译文。同时,以短语译文直译率为消歧特征,从候选译文中选出一个最为合理的。在该方法中,仅仅使用了汉语句法分析器和汉-英词汇对齐工具,以摆脱汉、英之间语法异构性的制约。在双语评价特征的基础上,分别使用多重线性回归模型、支持向量机模型和感知器模型来消除自动获取的短语翻译对中的噪声。提出了一种利用双语评价特征来进行译文评价的短语翻译对主动获取方法,通过选择有代表性的短语翻译对以达到减少人工标注数据的目的。使用标注后的短语翻译对对SVM分类器进行训练,实验结果表明:使用这种方法,在分类器性能基本没有下降的前提下,可以降低人工标注数据量。本项目从短语翻译对中抽取汉-英语序对应关系,提出了一种利用语言学特征和错误驱动学习相结合的源语言-目标语对等模式获取方法。使用对等模式来改变汉语句法树的结构,使其生成的译文符合英语语序要求。实验结果表明:使用这种方法对汉-英双语句对中的汉语句子进行调序,词链交叉率有所降低。本项目通过引入对等模式,将整个翻译过程拆分为两个不同的部分,即译文调序过程和译文选择过程。整个解码过程变为对调序后的汉语句子实施词汇翻译的过程。以此为基础,建立了统计解码模型。实验结果表明:该方法使译文输出质量有所上升。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

相似国自然基金

1

基于短语的维汉统计机器翻译关键技术的研究

批准号:61063026
批准年份:2010
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目
2

基于统计机器翻译和自动文摘的查询扩展研究

批准号:61363045
批准年份:2013
负责人:李卫疆
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目
3

融入语言学知识的汉蒙统计机器翻译研究

批准号:61063014
批准年份:2010
负责人:王斯日古楞
学科分类:F0211
资助金额:28.00
项目类别:地区科学基金项目
4

面向汉维机器翻译的双语对齐语料库和短语库构建技术的研究

批准号:60663006
批准年份:2006
负责人:吐尔根·依布拉音
学科分类:F0211
资助金额:25.00
项目类别:地区科学基金项目