基于结构化学习的有监督词对齐方法研究

基本信息
批准号:61003112
项目类别:青年科学基金项目
资助金额:20.00
负责人:戴新宇
学科分类:
依托单位:南京大学
批准年份:2010
结题年份:2013
起止时间:2011-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:陈家骏,黄书剑,吉阳生,赵迎功,刘友强,李博渊,魏志生,罗春勇
关键词:
统计机器翻译词对齐有监督结构化预测
结项摘要

机器翻译是自然语言处理和人工智能领域的重要问题之一,在文本信息处理的各个方面都得到了广泛的应用。词语对齐是统计机器翻译的必需步骤,对机器翻译的结果有决定性的影响。传统的词对齐采用无监督的方法,近年来,人们开始利用有标记的信息进行有监督的基于结构化预测的方法来提高词对齐的效果。 针对现有的基于结构化预测的词对齐研究中存在的难以融入全局特征、数据稀疏、领域不一致等问题,本项目拟结合国内外现有的研究成果,在结构化预测的框架下,采用基于压缩森林的重排序方法、协同训练、子样本加权等策略,探索更为有效的利用标记数据的词对齐学习方法,从而提高机器翻译系统的效果。

项目摘要

机器翻译是自然语言处理和人工智能领域的重要问题之一,在文本信息处理的各个方面具有广泛的应用。词对齐是统计机器翻译中的必需步骤,对机器翻译的结果有决定性的影响。本课题的主要研究目标是在统计机器翻译环境中,在结构化预测的框架下,研究基于判别式的词对齐,以提高词对齐质量,进而提高机器翻译的性能。按照研究计划, 本课题对基于结构化学习框架的词对齐方法进行了系统、全面的研究与分析。在词对齐过程中的搜索效率、面向词对齐及机器翻译的中文分词、双语语义关联挖掘、领域适应方法等方面进行了探索研究。其中,在基于ITG的词对齐的搜索效率研究中,针对词对齐的结构化歧义问题,提出了一种改进的ITG文法LGFN文法,该文法可以有效地消除结构化歧义从而提高搜索效率。提出一种假设剪枝方法,使得搜索被约束在较高质量的词对齐空间中,以提高搜索效率。在面向词对齐及机器翻译的中文分词研究中,针对中文分词对统计机器翻译的全局影响,提出了汉英机器翻译中中文分词的串行式融合策略。针对中文分词对词对齐阶段局部影响,提出了一种并行式融合策略,将基于多种分词的词对齐结果用启发式方式进行融合。提出了基于能够融合多种分词结果的判别式词对齐框架。在双语语义关联挖掘中,提出一种基于统计稀疏模型的双语词汇及短语语义关联发现方法。 在领域适应问题上做了一些探索研究,针对情感分析场景,提出一种基于多视图主成分分析的领域迁移方案。基于本课题的理论研究成果,课题组在机器翻译系统方面参加了全国机器翻译研讨会和美国标准研究院组织的三次评测,均取得优良成绩。 课题组在项目执行过程中,共发表论文15篇,其中SCI检索2篇,EI检索5篇。申请发明专利3项,授权1项。培养博士生4人,硕士生4人。.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022
5

多源数据驱动CNN-GRU模型的公交客流量分类预测

多源数据驱动CNN-GRU模型的公交客流量分类预测

DOI:10.19818/j.cnki.1671-1637.2021.05.022
发表时间:2021

戴新宇的其他基金

相似国自然基金

1

有监督和半监督多视图特征学习方法与应用研究

批准号:61702280
批准年份:2017
负责人:吴飞
学科分类:F0605
资助金额:25.00
项目类别:青年科学基金项目
2

基于半监督结构化学习的跨语言映射研究

批准号:61173073
批准年份:2011
负责人:赵铁军
学科分类:F0211
资助金额:57.00
项目类别:面上项目
3

分布式有监督学习的学习理论

批准号:61502342
批准年份:2015
负责人:林绍波
学科分类:F0201
资助金额:20.00
项目类别:青年科学基金项目
4

结构化数据的非监督/半监督学习问题研究及应用

批准号:61003135
批准年份:2010
负责人:徐林莉
学科分类:F0605
资助金额:18.00
项目类别:青年科学基金项目