With the development of the globalization of the Internet as well as major advance of the national "The Belt and Road" initiative, people's growing demand of multilingual information and the limited cross-language services provided by information retrieval systems has become one of the problems desired to be solved. Because of the abundant languages on the Internet, how to solve the problem of cross-language information acquisition between resource-rich and resource-learn language pairs based on the personalized needs of users is becoming more and more important. This project application is aimed for language pairs with unequal resources. It will provide a solution for personalized deep cross-language information retrieval by exploring integration of topic models and word embedding models and using the deep learning technology on the premise of personalization in order to improve the retrieval accuracy and customer satisfaction. The project includes: 1) research on cross-language topic models and cross-language word embedding models; 2) personalized user models and query expansion methods; 3) document modeling and semantic matching techniques for language pairs with unequal resources. Research results of this project can not only produce a set of practical models, techniques, methods and tool prototypes for personalized information retrieval and cross-language information retrieval, but also offer new ideas for further applications of resource-lean languages. It will provide theoretical and technical supports for developing cross-language information retrieval systems into deep cross-language information retrieval systems.
随着互联网全球化的发展以及国家“一带一路”倡议的推进实施,人们日益增长的多种语言信息需求与信息检索系统所提供的有限跨语言服务之间的矛盾已成为亟待解决的难题之一。由于互联网上语种丰富,如何根据用户个性化需求,解决资源丰富与稀缺的语言对之间跨语言信息获取的问题变得愈发重要。本申请面向资源不对等语言对,在个性化的前提下,探索结合主题模型与词向量模型,使用深度学习技术,以提高检索准确率与用户满意度为目标,提供一套个性化深度跨语言信息检索解决方案。具体包括:1)跨语言主题模型及跨语言词向量模型研究;2)个性化用户模型及查询扩展方法;3)资源不对等语言对的文档建模与语义匹配技术。预期研究成果不仅可为个性化信息检索、跨语言信息检索提供一套实用的模型、技术、方法和工具原型,还能够为资源稀缺语言的信息获取与进一步应用提供新的思路,为跨语言信息检索系统向深度跨语言信息检索系统转化提供理论和技术支持。
随着互联网的发展,人们日益增长的多种语言信息需求与信息检索系统所提供的有限跨语言服务之间的矛盾已成为亟待解决的难题之一。同时,跨语言信息检索也是跨语言问答系统、人机对话系统的基础和支撑技术。本项目面向资源不对等语言对,将语言多元化需求背景下的个性化用户模型构建、查询扩展与优化、资源不对等语言对文档的建模与匹配结合起来,提高个性化跨语言信息检索系统的性能和实用性。攻关过程中,课题组成员研究并形成了如下关键技术:1)基础语义模型方面:基于辅助主题模型的跨语言词向量生成方法、结合增强神经主题模型的跨语言词向量语义建模方法、基于流形学习结合全局和局部信息的词向量优化方法等;2)用户模型方面:基于Shapley值的用户属性分析方法、多层次、多粒度的个性化用户属性分析建模技术、多粒度用户信息特征对齐技术等;3)查询扩展方面:面向特定领域的文本语义特征扩展技术、结合文本间网络结构信息的文本语义扩展方法、基于多语义关系的个性化查询扩展方法等;4)语义匹配方面:基于多粒度语义空间学习的语义匹配技术、结合局部和全局特征的语义相似度计算方法、基于双语词向量的深度语义匹配技术等。项目研究成果为个性化信息检索、跨语言信息检索提供了一套实用的模型、技术、方法和工具原型,可大幅提高信息检索系统的搜索准确率和用户满意程度。同时,项目研究成果还能够为资源稀缺语言的信息获取与进一步应用提供新的思路,为跨语言信息检索系统向深度跨语言信息检索系统转化提供理论和技术支持。
{{i.achievement_title}}
数据更新时间:2023-05-31
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
中国参与全球价值链的环境效应分析
基于多语用户模型的个性化跨语言信息检索研究
面向特定领域基于Ontology的跨语言信息检索技术研究
面向数据的英汉双向跨语言信息检索关键技术研究
面向英汉双向跨语言信息检索的若干自然语言处理底层关键技术研究