基于映射关系理解的实体翻译方法及应用研究

基本信息
批准号:61003160
项目类别:青年科学基金项目
资助金额:21.00
负责人:陈钰枫
学科分类:
依托单位:中国科学院自动化研究所
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:吴晓锋,周可艳,汪昆,翟飞飞,涂眉,李茂西,夏睿,鉴萍
关键词:
映射关系实体翻译机器翻译机器学习实体识别
结项摘要

实体翻译在机器翻译、跨语言信息检索等领域都有非常重要的用途。目前实体翻译面临以下几个挑战:实体作为多信息成分的组合体,在翻译中呈现不同的映射方式,目前翻译模型难以表示和容纳这些丰富的映射知识;传统的双语实体抽取方法难以从模式、内容多样性的网络资源中获取双语词典;实体识别错误是实体翻译应用于机器翻译系统的最大障碍。因此,本项目拟在以下几个方面进行深入研究和探索:(1)在对实体映射关系进行分析、定义的基础上,结合实体识别任务,提出实体映射关系的理解方法;(2)在此基础上,研究提出基于映射关系理解的实体翻译一体化模型;(3)利用图模型对混合网页中翻译对的抽取问题进行建模,并建立主动学习引导下的双语词典生成的新方法;(4)最终面向机器翻译的应用,提出基于多核学习的扩展实体翻译模型,实现实体识别和实体翻译的交互,并辅助机器翻译系统性能的提高。本项目开展的研究工作具有重要的理论意义和应用价值。

项目摘要

本项目针对目前命名实体翻译面临的几个关键问题:如何准确理解实体内部词所映射的语义并进行翻译;如何使双语实体识别与实体对齐相辅相成;以及最终如何有机结合实体翻译与机器翻译等问题,展开了一系列研究,取得的主要技术进展和研究成果归纳如下:(1) 分析了汉英实体识别的差异性和互补性,提出了汉英双语实体识别与对齐的联合式模型,突破了传统的实体对齐框架。该联合式模型不仅有效提高了实体对齐的性能,而且大幅度提高了实体识别结果。(2) 提出了一种融合生成式和区分式的汉语分词模型,可应用于实体的内部标注,可以更好地理解实体内部词的语义及相互关系。(3) 针对实体词的多义性,提出了基于语义理解的汉语实体翻译方法,有效提高了人名、地名和机构名的翻译效果。(4) 基于双语实体识别与对齐的特性,提出了汉英双语实体识别与对齐的交互式方法,包括基本对齐计算和修正对齐计算。其中的修正对齐计算根据单语和双语序列上的实体置信度,重新判断实体的边界和类别,实现了双语实体识别与对齐的交互。(5) 未登录词在实体中占有很大的比例,严重影响了机器翻译效果,因此,针对未登录词提出了基于语义功能的挖掘模型,可以有效地解决未登录词在翻译模型中造成的短语调序问题。. 基于以上研究成果,我们实现了一个汉英双语实体识别与翻译的高性能系统。该系统加入到机器翻译系统后,可以有效改善译文质量,为将来的进一步研究打下了扎实的基础。. 三年来,项目总体进展顺利,所有研究计划已按要求完成。共发表学术论文15篇,被国际顶级期刊录用论文2篇,获一项学术会议最佳论文奖;申请国家发明专利2项,获2项软件著作权登记;培养研究生8名,达到了项目的预期目标和成果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于改进LinkNet的寒旱区遥感图像河流识别方法

基于改进LinkNet的寒旱区遥感图像河流识别方法

DOI:10.6041/j.issn.1000-1298.2022.07.022
发表时间:2022
2

新型树启发式搜索算法的机器人路径规划

新型树启发式搜索算法的机器人路径规划

DOI:10.3778/j.issn.1002-8331.1903-0411
发表时间:2020
3

现代优化理论与应用

现代优化理论与应用

DOI:10.1360/SSM-2020-0035
发表时间:2020
4

基于自适应干扰估测器的协作机器人关节速度波动抑制方法

基于自适应干扰估测器的协作机器人关节速度波动抑制方法

DOI:10.13973/j.cnki.robot.210412
发表时间:2022
5

WMTL-代数中的蕴涵滤子及其应用

WMTL-代数中的蕴涵滤子及其应用

DOI:10.11897/SP.J.1016.2018.00886
发表时间:2018

陈钰枫的其他基金

批准号:61473294
批准年份:2014
资助金额:83.00
项目类别:面上项目

相似国自然基金

1

基于语言理解的机器翻译方法研究

批准号:60975053
批准年份:2009
负责人:宗成庆
学科分类:F0606
资助金额:33.00
项目类别:面上项目
2

基于理解的汉英机器翻译理论和方法研究

批准号:68775023
批准年份:1987
负责人:姚天顺
学科分类:F0606
资助金额:4.00
项目类别:面上项目
3

基于话语理解的交互式口语翻译方法研究

批准号:60575043
批准年份:2005
负责人:宗成庆
学科分类:F0606
资助金额:26.00
项目类别:面上项目
4

基于语言理解的机器翻译译文自动评价方法研究

批准号:61203313
批准年份:2012
负责人:李茂西
学科分类:F0606
资助金额:24.00
项目类别:青年科学基金项目