基于树到串藏语句法翻译若干关键技术研究

基本信息
批准号:61363055
项目类别:地区科学基金项目
资助金额:45.00
负责人:华却才让
学科分类:
依托单位:青海师范大学
批准年份:2013
结题年份:2017
起止时间:2014-01-01 - 2017-12-31
项目状态: 已结题
项目参与者:赵海兴,陈玉忠,才智杰,索南才让,头旦才让,吉毛才让,杨措,华果才让,求毛措
关键词:
藏语依存树库头驱动依存关系抽取藏语依存句法分析树到串模型
结项摘要

The dependency structure as a first step towards semantics, is believed to be helpful to improve translation quality. So in order to solve these key technologies of the Tibetan syntacitc statistical machine translation(SMT), to develop new research area of the Tibetan language information processing, and to better serve demand for the domestic Tibetan machine translation. We will analyse the Tibetan dependency syntax tree and its processing technology on normal large-scale corpus of the Tibetan and Chinese, then given translation model and decoding methods for Tibetan syntactic features, finally we will implement the Tibetan to Chinese SMT system, which used dependency to string model. For this reason, the project group intends to handle the problems of the following four aspects. Firstly, we will completely finish the definition of Tibetan dependency syntax grammars. Secondly, to improve and perfected our previous Tibetan dependency parser. Thirdly,to divide Tibetan word tags to two classifications of opening and closing word, study the technology of how to extract the head relation rules in dependency tree, and then we will develop the training tool for translation model. Fourth, we will design the decoding algorithm that used to decode dependency structure tree-to-string translation model, and after to implement syntactic SMT model decoder.

依存结构作为语义分析的先决工作,有助于提高统计机器翻译的质量,为了解决统计机器翻译中的这一关键技术,拓展藏文信息处理的新研究领域,更好地为国内藏语机器翻译需求做服务。本项目在已经构建的大规模规范藏语语料库及现有研究基础上,将研究藏语依存句法树分析和处理技术,提出符合藏语句法特征的翻译模型和翻译方法,最终实现基于依存树到串藏语句法统计机器翻译系统。拟解决以下四个方面的问题:一是藏语依存句法标注规范的确立与藏语句法树库的构建技术;二是改进和完善项目组现有的藏语依存树分析工具;三是藏语开放词和封闭词的划分,通过研究头依存关系的抽取技术,设计并实现藏语句法翻译模型的训练工具;四是设计依存结构树到串翻译模型的解码算法,并实现翻译模型的解码器。

项目摘要

依存句法分析作为语义分析的先决工作,有助于提高统计和神经机器翻译的质量。为了解决藏语句法机器翻译中的一些键技术,拓展藏文信息处理的新研究领域,更好地为国内藏语机器翻译需求做服务。本项目研究了藏语依存句法树分析和处理技术,提出了符合藏语句法特征的翻译模型和翻译方法,并实现了基于依存树到串藏语句法统计机器翻译系统。解决了以下四个方面的问题:一是根据藏语自身特点制定了 36 类藏语依存句法标注规范,提出了新颖的半自动依存树库构建模式,实现了基于词对依存分类模型的半自动树库构建可视化工具。首次构建了藏语依存树库 TDTreebank V1.1,规模达 4万句。二是针对藏语特性提出融合丰富特征的统计藏语依存分析模型,实现了基于一层感知机模型的藏语依存句法分析器。解决了目前藏语还没有依存句法标注规范、树库和依存句法分析器的实际问题。 三是实现了藏语依存树到串模型翻译规则的抽取算法。根据依存树中依存关系的支配准则,用头-依存关系 HDR(head-dependent relation)片段对藏语依存树进行分解,保证每个 HDR 片段包含与其他 HDR 片段重叠的节点,使得只需替换作为基本操作来描述依存树的生成过程。四是实现了藏语依存树到串模型机器翻译的解码算法。选择自底向上的线图分析算法,由于在翻译规则中使用了子树一致性跨度的可接受 HDR片段识别方法,对头-依存基本结构单元的操作只作替换,而且调序信息也表示在翻译规则中,故不再需要调序模型,简化了翻译解码算法。采用了所有翻译规则的完全匹配策略翻译方案。实现了依存树到串藏汉机器翻译系统,本系统是目前第一个完成的基于藏语句法翻译模型的机器翻译系统,该系统奠定了基于藏语依存句法的翻译理论。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
4

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

华却才让的其他基金

相似国自然基金

1

串到树统计机器翻译的若干关键技术研究

批准号:61073140
批准年份:2010
负责人:朱靖波
学科分类:F0211
资助金额:31.00
项目类别:面上项目
2

基于树的句法翻译模型关键技术研究

批准号:61272376
批准年份:2012
负责人:朱靖波
学科分类:F0211
资助金额:81.00
项目类别:面上项目
3

基于格依存树到串模型的日汉机器翻译研究

批准号:61370130
批准年份:2013
负责人:徐金安
学科分类:F0211
资助金额:73.00
项目类别:面上项目
4

基于汉英双向树串模型的统计机器翻译研究

批准号:60872118
批准年份:2008
负责人:孙广范
学科分类:F0113
资助金额:29.00
项目类别:面上项目