基于跨语言主题向量的双语篇章可比度量化研究

基本信息
批准号:61806187
项目类别:青年科学基金项目
资助金额:23.00
负责人:朱泽德
学科分类:
依托单位:中国科学院合肥物质科学研究院
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:孙熊伟,郑晓菊,王春义,周满,董文功,任建文
关键词:
可比度量化跨语言主题向量双语篇章领域自适应多层次结构
结项摘要

Quantifying comparability of bilingual documents has an important guidance value on both the translation equivalence mining and the cross-language information processing. Currently, the topic similarity calculation is the major measure for the comparability. However, several problems such as the low topic consistency and the poor domain adaptation occur due to the lack of internal structure relationship and the differences between document and domain knowledge. .In response to the problems mentioned above, the project will enhance the accuracy of quantifying the comparability degree of bilingual documents, which designs the cross-language topic representation model, by adopting the multi-level topic matching and the domain self-adaptation. The project will be carried out on following items: 1) To improve the generalization ability of the cross-language topic model, the study will merge bilingual word alignment and word representation into the cross-language topic model to build the cross-language topic representation model. 2) The multi-level topic matching model of bilingual documents will be proposed by researching the consistent topic representation document search method from source language into target language and adopting the semantic hierarchical clustering method on document fragments. 3) In order to enhance the domain self-adaptation for quantifying comparability of bilingual documents, the method of translation extraction and disambiguation will be studied under the guidance of topic representation, and the interactive promotion model of different granular translation resources will be researched. The research will provide a fundamental theory to build the cross-language topic representation model and a new idea to produce the large-scale, multi-level and multi-domain quantization of Chinese-English bilingual document comparability.

双语篇章可比度量化对互译等价对挖掘和跨语言信息处理有重要的指导价值。当前主题相似性计算是可比度量化的主要手段,然现有方法无法分析篇章内部的结构关系,且无法缓解领域知识的差异性,导致可比度量化面临多层次话题漂移和领域适应性偏差等问题。.针对上述问题,项目将进行跨语言主题向量模型设计,通过话题层次匹配和领域自适应,提高双语篇章可比度量化的精准度。重点开展:1)研究联合双语词对齐和词向量融入跨语言主题,构建跨语言主题向量模型,提升跨语言主题对开放域篇章的泛化能力;2)探讨源语言与目标语言主题向量一致文档搜索方法,对文档分割片段进行语义扩展聚类,实现双语篇章多层次话题匹配模式;3)探索主题向量指导互译词汇抽取和消歧方法,通过领域新知识发现和不同粒度互译资源交互学习,提高可比度量化的领域自适应能力。研究为跨语言主题向量构建提供理论基础,为大规模、多层次及多领域的汉英双语篇章可比度量化提供新思路。

项目摘要

双语篇章可比语料的构建降低了双语平行语料获取的困难程度,被不断应用于统计机器翻译、跨语言信息检索、跨语言情感分析等领域。可比度量化对可比语料应用具有重要的指导价值,现有主题相似性计算是可比度量化的主要手段,然现有方法无法分析篇章内部的结构关系,且无法缓解领域知识的差异性,导致可比度量化面临多层次话题漂移和领域适应性偏差等问题。针对上述问题,项目将进行跨语言主题向量模型设计,通过话题层次匹配和领域自适应,提高双语篇章可比度量化的精准度。重点开展:1)将双语词向量融入跨语言主题模型,构建跨语言主题向量模型,提高跨语言主题向量表征篇章的泛化能力;2)将互联网搜索的不同语言主题向量一致的文档,分割片段进行语义扩展和层次聚类,提高双语篇章多层次话题匹配的一致性;3)通过主题向量指导互译词汇抽取,扩充领域双语知识,构建不同粒度资源交互式学习模型,提升可比度量化的领域适应性。项目通过以上问题的研究,突破了基于跨语言主题向量的双语篇章可比度量化关键技术,达到以下目标:提升泛化性:将双语词向量融入跨语言主题,构建跨语言主题向量模型,提高模型的泛化能力,进行20万汉英双语篇章构建和可比度量化;优化一致性:利用双语篇章多层次话题分割、扩展和聚类,提高可比度量化精度,实现双语篇章的可比度高于0.8,其中,95%双语篇章的可比度高于0.9;增强适应性:利用主题向量指导领域新知识发现和多粒度交互作用,实现篇章可比度量化对不同领域的自适应性,涉及科技、经济、文化、法律、金融等10个领域。.本项目的研究,建立了双语篇章可比度量化试验系统,提出了一种大规模、多层次及多领域的汉英双语篇章可比度量化方法。项目研究过程中,取得了一些知识产权,主要包括发表学术论文4篇、申请专利3项、登记软件著作权3项。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
3

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
4

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

朱泽德的其他基金

相似国自然基金

1

基于双语文档反馈的跨语言信息检索研究

批准号:60873105
批准年份:2008
负责人:齐浩亮
学科分类:F0211
资助金额:34.00
项目类别:面上项目
2

篇章结构分析及基于双语投射的篇章标注方法研究

批准号:61202244
批准年份:2012
负责人:鉴萍
学科分类:F0211
资助金额:23.00
项目类别:青年科学基金项目
3

基于语言网络的文本主题中心度计算方法研究

批准号:61075047
批准年份:2010
负责人:张智雄
学科分类:F0607
资助金额:35.00
项目类别:面上项目
4

汉藏双语跨语言语音转换中的关键技术研究

批准号:61262055
批准年份:2012
负责人:甘振业
学科分类:F0211
资助金额:43.00
项目类别:地区科学基金项目