高精度的跨语言信息检索查询词自动翻译技术研究

基本信息
批准号:60970057
项目类别:面上项目
资助金额:31.00
负责人:姚建民
学科分类:
依托单位:苏州大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:梁颖红,屈蕴茜,周美玲,韩艳,李斌,孙俊,张永刚,颜振祥
关键词:
查询翻译WEB挖掘双语资源跨语言信息检索
结项摘要

互联网上有海量多语言文本资源,通过分析不同类型网页的内容、结构和链接特征,利用机器学习方法可以实现文档、句子和词汇级双语资源的自动获取。.以网络文本挖掘为手段,研究跨语言信息检索查询词翻译获取的方法,重点研究基于本地语料库和基于网络的翻译技术。.本地语料库以网络挖掘方式建设,有低成本、高效率、强时效性,广覆盖面等特色。对本地语料库词汇和语法覆盖度进行优化,实现最小时空开销下的高翻译质量。.对本地语料未覆盖的查询词,以网络挖掘的方法解决,并用以扩大本地资源库。.基于网络的翻译方法中利用共现信息查询扩展方法获取搜索引擎摘要,克服意译词的挖掘瓶颈;利用频度量度和邻接信息,在有噪声的、规模较小的双语摘要库上抽取高质量的候选单元,提高抽取效率;综合利用音译、表层模版、语义、频度-距离等特征进行译文的选择,提高翻译精确度。.研究成果可用于跨语言信息检索、机器翻译等领域。

项目摘要

大规模语料库在计算语言学和自然语言处理领域中具有广泛的应用,它为统计机器翻译模型提供了不可或缺的训练数据,同时也是词典编纂和跨语言信息检索等研究的重要语料资源。因此,为了提高跨语言信息检索中查询词的自动翻译性能,本项目一方面重点研究大规模双语资源的获取,另一方面侧重于研究如何利用双语资源,实现查询词自动翻译。其中,为了获取海量的、优质的双语资源,本项目分别从平行语料库和可比较语料库两方面入手,囊括了平行语料库对齐质量高、可比较语料库覆盖面广等特点。另外,在基于双语资源实现跨语言信息检索查询词自动翻译的过程中,着重探索研究并高效解决了查询词中命名实体、专业术语以及缩略语等未登录词的翻译难题,从而提高了跨语言信息检索的准确性和有效性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

黄河流域水资源利用时空演变特征及驱动要素

黄河流域水资源利用时空演变特征及驱动要素

DOI:10.18402/resci.2020.12.01
发表时间:2020
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

中外学术论文与期刊的宏观差距分析及改进建议

中外学术论文与期刊的宏观差距分析及改进建议

DOI:
发表时间:2021
5

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据

DOI:10.12202/j.0476-0301.2020285
发表时间:2021

姚建民的其他基金

相似国自然基金

1

跨语言信息检索中的机器翻译研究

批准号:61173100
批准年份:2011
负责人:黄德根
学科分类:F0211
资助金额:55.00
项目类别:面上项目
2

基于查询词级联关系的高阶信息检索问题研究

批准号:61202181
批准年份:2012
负责人:乔亚男
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
3

维吾尔、哈萨克、柯尔克孜文跨语言信息检索技术研究

批准号:61262063
批准年份:2012
负责人:维尼拉·木沙江
学科分类:F0211
资助金额:46.00
项目类别:地区科学基金项目
4

面向特定领域基于Ontology的跨语言信息检索技术研究

批准号:60302021
批准年份:2003
负责人:于浩
学科分类:F0113
资助金额:20.00
项目类别:青年科学基金项目