基于潜在语义对偶空间的跨语言信息检索理论和算法研究

基本信息
批准号:60963014
项目类别:地区科学基金项目
资助金额:22.00
负责人:王明文
学科分类:
依托单位:江西师范大学
批准年份:2009
结题年份:2012
起止时间:2010-01-01 - 2012-12-31
项目状态: 已结题
项目参与者:左家莉,罗远胜,吴根秀,王晓庆,万中英,吴水秀,吴福英,罗文兵,吴世勇
关键词:
跨语言信息检索跨语言文本分类潜在语义对偶空间维数约简
结项摘要

因特网资源的多语言性和用户对母语和非母语熟悉程度的差异性,使跨语言信息检索成为研究热点。在跨语言的信息检索和分类中,存在多词一义和一词多义、翻译歧义和数据高维性等问题。在检索模型中表现为特征的多重相关,进而影响模型检索性能;在分类模型中表现为自变量间的多重相关性、数据高维性,将影响文本分类性能。如何有效消除这些影响,成为提高跨语言的检索和分类性能的关键。本课题拟应用典型相关分析、偏最小二乘等统计理论研究新的模型,将多语言文档看成从不同侧面描述同一对象形成的不同视图,综合考虑语言的语义特性,通过构造潜在语义对偶空间,建立词的语义关系、文档的语义关系及其结构关系和双语间的语义对应关系;在该统一框架下研究基于潜在语义对偶空间的跨语言的检索模型、文本分类/聚类模型和维数约简方法;进一步研究基于潜在语义对偶空间的多语言信息检索模型,并在理论上证明和实验上验证新模型和方法的有效性。

项目摘要

本课题运用偏最小二乘和典型相关分析等统计理论研究,将多语言文档看成从不同侧面描述同一对象形成的不同视图,综合考虑语言的语义特性,通过构造潜在语义对偶空间,建立词的语义关系、文档的语义关系及其结构关系和双语间的语义对应关系,提出了一种基于潜在语义空间的跨语言信息检索框架。在该统一框架下,研究了基于潜在语义对偶空间的跨语言的检索模型、文本分类/聚类模型和维数约简方法。.课题组成员共发表相关论文29篇,成功承办2012年第八届全国信息检索学术会议和2012年中国中文信息学会战略研讨会,培养15硕、博士研究生,邀请加拿大蒙特利尔大学聂建云教授、日本东京大学教授胡振江教授讲学和交流。具体研究工作有:. (1)构建了用于跨语言信息检索评测需要的中英双语平行语料库:9161篇中英文CLIR评测语料库,含查询和相关性判断;9081篇中英跨语言文本分类评测语料库;使用Google翻译构建TREC9中英双语平行语料库;25000对平行文档组成的中英双语平行语料库。. (2)基于潜在语义对偶空间的跨语言信息检索框架:将双语文档集看成是不同语言描述同一对象形成的不同视图,通过建立刻画语言语义对应关系(在CLIR中主要体现为不同语义级的语言翻译对应关系)的潜在语义对偶空间(描述客观对象的抽象概念空间)反映它们的统计依赖关系。. (3)基于双语主题空间的CLIR和CLTC模型:将双语文档对看作同一内容的两种语言表达,由双语平行语料库构造每种语言的潜在语义空间,提出双语偏最小二乘主题相关模型以及相关的跨文本分类模型。. (4)基于潜在语义对偶空间的信息检索系列模型:将源语言文档矩阵X和目标语言文档矩阵Y看作一种非对称的预测分析关系,由此提出基于潜在语义对偶空间的跨语言信息检索、跨语言文本模型,并将其用于多语言的信息检索。. (5)提出一种基于特征加权的半监督单语言和跨语言聚类方法。. (6)相关单语言信息检索和文本分类的研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
2

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
3

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

基于分形维数和支持向量机的串联电弧故障诊断方法

基于分形维数和支持向量机的串联电弧故障诊断方法

DOI:
发表时间:2016

王明文的其他基金

批准号:61272212
批准年份:2012
资助金额:70.00
项目类别:面上项目
批准号:61373009
批准年份:2013
资助金额:58.00
项目类别:面上项目
批准号:60663007
批准年份:2006
资助金额:25.00
项目类别:地区科学基金项目
批准号:61462045
批准年份:2014
资助金额:45.00
项目类别:地区科学基金项目
批准号:61876074
批准年份:2018
资助金额:62.00
项目类别:面上项目

相似国自然基金

1

基于双语文档反馈的跨语言信息检索研究

批准号:60873105
批准年份:2008
负责人:齐浩亮
学科分类:F0211
资助金额:34.00
项目类别:面上项目
2

基于互连网络环境的汉英跨语言信息检索研究

批准号:69983009
批准年份:1999
负责人:杜林
学科分类:F0211
资助金额:12.00
项目类别:专项基金项目
3

跨语言信息检索中的机器翻译研究

批准号:61173100
批准年份:2011
负责人:黄德根
学科分类:F0211
资助金额:55.00
项目类别:面上项目
4

面向特定领域基于Ontology的跨语言信息检索技术研究

批准号:60302021
批准年份:2003
负责人:于浩
学科分类:F0113
资助金额:20.00
项目类别:青年科学基金项目