Language divide is inevitable when non-native users access Internet massive multi-lingual resources. Cross-lingual information retrieval (CLIR) processing different languages is an effective way to bridge the divide. The key is how to build semantic relationship between languages, effectively handle ambiguity arising from polysemy, synonym, translation and high-dimensional data. Topic model is an effective tool processing and analyzing multi-lingual documents and has been attracted more attention in recent years. In this project, several mainstream subspace learning methods are applied to topic model and build a unified CLIR framework based on sparse bilingual topic. In the framework, we extract low-rank sparse topic space from bilingual documents, model statistical dependencies between languages, reveal the indigenous latent semantic structure in document set. We can also handle monolingual and cross-lingual retrieval task.. The project focuses on algorithms for creating sparse bilingual topic space. Then the algorithm are utilized to retrieval model, text categorization method, dimensionality reduction algorithm, temporal retrieval model in cross-lingual environment. To process large-scale news corpus, we reconstruct bilingual topic space through simulating iteration projection and local-weighted method in incremental learning. Furthermore, we will prove the above models or algorithms in theory and verify their effectiveness in experiments.
因特网海量资源的多语言特点使得非母语用户利用资源存在“语言鸿沟”。跨语言信息检索是跨越语言鸿沟的一种有效途径,其关键为如何建立语言间的语义联系,有效解决词义歧义和翻译歧义、数据高维稀疏等问题。近年备受关注的主题模型是解决这些问题的一个有力工具。本项目拟运用主流的子空间学习方法研究主题模型,构建一种基于稀疏双语主题的跨语言信息检索统一框架。在该框架下,抽取双语文档的低秩稀疏主题空间,建模双语词、文档的统计依赖关系,揭示文档数据内在的潜在语义结构。重点研究稀疏双语主题空间的构造算法,并将其应用于跨语言的检索模型、文本分类模型、维数约简方法和时序检索模型等。为处理大规模新闻语料,通过模拟迭代投影、局部加权等方式增量重构双语主题空间。在理论上证明和实验中验证新模型和算法的有效性,为跨语言信息检索研究提供一种新思路和理论依据。
因特网海量资源的多语言特点使得非母语用户利用资源存在“语言鸿沟”。跨语言信息检索是跨越语言鸿沟的一种有效途径,其关键为如何建立语言间的语义联系,有效解决词义歧义和翻译歧义、数据高维稀疏等问题。近年备受关注的主题模型是解决这些问题的一个有力工具。项目组运用主流的子空间分析理论和机器学习中的主题模型,较为系统地研究了多语言文本处理中的稀疏双语主题模型构建,系统地深入研究了基于双语主题空间的跨语言检索模型、跨语言文本分类方法和跨语言文本聚类方法,在不借助于机器翻译和双语词典等跨语言资源的情况下,可以有效地解决CLIR中词汇翻译的多对多问题,部分解决未登录词问题。提出了基于稀疏双语主题模型的跨语言信息检索统一框架,在基础上构建了基于主题对偶空间的跨语言检索模型、基于双语语义对应分析的跨语言文本聚类方法研究、基于稀疏双语主题的跨语言文本分类研究,并从事了文本情感分析、图像烟雾识别、PAN锐化方面的研究,并对这些新模型和新方法的有效性在实验上进行了验证。项目组基本完成了预期的研究目标,取得一些重要的研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于时间感知模型的学术主题检索与演化挖掘研究
稀疏相位检索的鲁棒优化理论与算法研究
汉英双语依存句法分析模型和算法研究
基于跨语言主题向量的双语篇章可比度量化研究