基于潜在语义对偶空间的新词翻译自动识别方法研究

基本信息
批准号:61462045
项目类别:地区科学基金项目
资助金额:45.00
负责人:王明文
学科分类:
依托单位:江西师范大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:左家莉,罗远胜,吴根秀,徐凡,廖海波,付翠琴,徐雄飞,孟祥申,刘燕
关键词:
统计机器翻译自然语言处理新词翻译潜在语义对偶空间
结项摘要

It is inevitable that the new words continuously emerge in cross-language communication in the era of globalization. Automatic identification and translation of new words, new meaning and new translation of the old words in statistical machine translation bring challenges to machine translation system. They also have great effect on performance of multilingual information processing. How to automatically detecting new words, disambiguate new meaning and new translation of new words is key to improve machine translation system performance. Based on bilingual latent semantic dual space proposed in National Natural Science Foundation of China project that we completed, the project focuses on translating new word in online multilingual text. The new word is defined as the emerging word or the old word is endowed with the new meaning. Unlike the traditional method of statistical machine translation, we will utilize the theories of subspace analysis and latent semantic analysis, model the bilingual latent semantic correspondence in bilingual parallel corpus and build latent semantic dual space. In the space, we will design automatic recognition algorithms of new word translation and identification algorithm of out-of-vocabulary. After matching the translation of new words and identifying the out-of-vocabulary, we will construct dictionary for new words with translation probability and update the probabilities of old word. Then we will refine terms translation probabilities. Furthermore, the new models and methods are proved in theory and verified in experiment, also become new ideas and theoretical basis for statistical machine translation.

在全球化时代的跨语言交流中,新词的出现已经成为语言处理研究领域不可避免的语言现象。在统计机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战,也很大程度上影响其多语言信息处理性能。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要以我们已完成的国家自然科学基金项目中提出的双语潜在语义对偶空间的研究工作为基础,重点研究分析在线多语言文本中的新词(即新出现词语和赋以新义的原有词语)翻译问题,区别于传统的统计机器翻译方法,拟运用主流的子空间分析和潜在语义分析等理论,建立双语平行语料库中的双语潜在语义对应关系,构造潜在语义对偶空间;研究自动识别新词翻译的算法和未登录词识别算法;建立新词概率词典和更新已有词翻译概率,修正词汇化翻译概率;在理论上证明和实验中验证新模型和方法的有效性,为统计机器翻译研究提供一种新思路和理论依据。

项目摘要

在机器翻译中,新词自动识别、新词翻译、旧词新义和旧词新译给机器翻译系统带来了挑战。如何自动识别新词,并有效消除旧词新义、旧词新译带来的歧义成为提高机器翻译系统性能的关键。本项目主要运用主流的子空间分析理论和最新的深度学习理论,重点研究了多语言文本中的新词翻译和识别问题。项目组成员共发表相关论文42篇,成功承办了NLP&CC 2015、SMP2016、YSSNLP2017等学术会议,培养12名硕士,在读博士4名,邀请伊利诺伊大学香槟分校韩家炜教授、加拿大蒙特利尔大学聂建云教授、清华大学黄昌宁教授等知名学者来校讲学和交流。主要研究工作有:.1、大中华区汉语方言识别研究:从维基百科和新闻网站构建了大中华区汉语方言词对齐语料库,提出了一个基于word2vec的两阶段大中华区词对齐模型;使用字符级N元的常用特征、基于PMI和词对准特征等识别中国大陆、港澳台、马来西亚、新加坡等大中华区汉语方言;构建了汉语客家话平行语料库,使用中文字符、汉语拼音和方言发音等形式的二级细粒度来表示,并提出了相应的新词识别算法。.2、机器翻译中的多义词识别研究:提出一种从单语语料中抽取出特定领域的复述表来替换一般领域的复述,利用改进的M-L方法从单语语料过滤出特定领域子语料,后在过滤后的子语料中利用Markov网络模型抽取特定领域复述表,以提高同义词和近义词的匹配精度。.3、基于潜在语义空间的跨模态检索表示学习算法研究:基于特征投影策略,提出了两种有效的语义关联挖掘方法,综合考虑了同一模态内或跨模态的语义相关性。通过引入线性分类器,使得各模态都能够分别学习到各自具有判别性的二进制哈希码,同时通过耦合哈希表示在嵌入语义空间中最大化不同模态之间的相关性,从而捕捉到不同模态之间的语义相关性。.4、基于深度学习的机器翻译质量自动评价研究:针对机器翻译中的近义词和多义词会影响翻译性能,研究使用嵌入特征以及源句子和机器翻译的交叉熵,基于神经网络的自动后编辑,基于深度学习的上下文单词预测模型和矩阵分解模型提取句子向量特征,综合N-Gram特征和句子语义映射特征等提升翻译质量。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
3

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响

DOI:10.11868/j.issn.1001-4381.2018.001042
发表时间:2019
4

基于关系对齐的汉语虚词抽象语义表示与分析

基于关系对齐的汉语虚词抽象语义表示与分析

DOI:
发表时间:2020
5

业务过程成批处理配置优化方法

业务过程成批处理配置优化方法

DOI:10.13196/j.cims.2019.04.019
发表时间:2019

王明文的其他基金

批准号:61272212
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:61373009
批准年份:2013
资助金额:58.00
项目类别:面上项目
批准号:60663007
批准年份:2006
资助金额:25.00
项目类别:地区科学基金项目
批准号:60963014
批准年份:2009
资助金额:22.00
项目类别:地区科学基金项目
批准号:61876074
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于潜在语义对偶空间的跨语言信息检索理论和算法研究

批准号:60963014
批准年份:2009
负责人:王明文
学科分类:F0211
资助金额:22.00
项目类别:地区科学基金项目
2

基于内在与潜在语义特征的声音段落级语义识别方法研究

批准号:61471145
批准年份:2014
负责人:韩纪庆
学科分类:F0113
资助金额:86.00
项目类别:面上项目
3

基于专利语义分析的潜在竞争对手识别方法研究

批准号:71774052
批准年份:2017
负责人:史敏
学科分类:G0414
资助金额:42.00
项目类别:面上项目
4

基于句法结构和语义框架的机器翻译自动评价方法研究

批准号:61379086
批准年份:2013
负责人:刘群
学科分类:F0211
资助金额:73.00
项目类别:面上项目