One of the fundamental problems in information retrieval has been recognized to be the lexical chasm between query strings and document strings. This problem is manifested in a mismatch between document and q uery vocabularies, and is aggravated by the inherent ambiguity of natural language . So, the people have to begin to solve this problem by query expansion and natural language processing. So far, the candidate terms for query expansion were selected t hrough the methods of based on co-occurrence in most current retrieval systems. At the mean time, the nature language processing technologies of above the word level have not really been applied into the information retrieval. For these reasons, we p lan to develop bellow studies. On the one hand, we introduce the statistical machine translation into query expansion in information retrieval. We propose to regard the is sue of selecting candidate expansion terms in query expansion as a translation issue. We estimate relationship between phrases by the translation probability bet ween phrases which is computed by using a full-sentence paraphraser. On the other hand, we study how to integrate the summary model into retrieval model for an inherent retrieval model by introducing the Dirichlet distribution. We strive to make so me innovations and breakthroughs on principles and approaches of integrating natur al language processing technology into information retrieval.
信息检索面临的一个主要问题是查询词和文档词之间的语义鸿沟,而自然语言 内在的模糊性加剧了这个问题。因此需要从查询扩展和自然语言处理技术入手来解决这个问 题。大多数检索系统提供的查询扩展项都是基于共现的方法产生的,不具有语义分析的能力。 而词语以上级的自然语言处理技术还没有真正用于检索模型中。本课题为解决上述问题,一 方面将统计机器翻译模型引入信息检索的查询扩展,提出把信息检索的查询扩展研究中寻找 查询扩展词的问题当成是翻译问题。通过短语到短语的整句翻译模型,计算短语到短语的翻 译概率,并以此翻译概率为基础计算短语之间的相关度作为依据来进行查询扩展。另一方面 着重研究把文摘模型融合到检索模型,通过引入Dirichlet分布建立文摘模型和信息检索的 有机统一的检索模型。本课题力争在自然语言处理与信息检索结合的理论和方法上有所创新 和突破,具有重要的学术意义。
在搜索引擎等实际的信息检索应用中,用户提交的查询请求通常只包含很少的几个关键词,这会引起相关文档和用户查询之间的词不匹配问题,对检索性能有比较严重的负面影响。如何解决词不匹配问题成为信息检索领域中的一个十分重要的研究课题。查询扩展是解决词不匹配问题的有效的技术手段。..本课题利用统计机器翻译技术来弥补查询词与文档词之间的语义鸿沟。利用一个整句的意译器来对整个查询句的上下文生成同义词;通过查询句-文档句对训练生成的整句的翻译模型,利用该模型计算查询词到文档词的翻译概率,以此作为查询词与文档词之间的关联度依据进行查询扩展。..本课题开展了面向检索任务的文摘方法研究。偏向查询的文摘是在文摘中反映查询中表示的用户信息需求。通过度量识别用户的相关文档准确性,在基于任务的环境下评价文摘的效能。..本课题研究了文摘模型与检索模型的内在联系,以Dirichlet分布分析为依据设计文摘模型和检索模型中文档和查询的表示模型,提出Dirichlet分布下的统一的文摘检索模型。..研究目标是利用自然语言处理词语以上级,例如统计机器翻译、自动文摘,开展信息检索与自然语言处理融合的基础性理论的探索性研究工作。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
采用深度学习的铣刀磨损状态预测模型
固溶时效深冷复合处理对ZCuAl_(10)Fe_3Mn_2合金微观组织和热疲劳性能的影响
环境信息披露会影响分析师盈余预测吗?
面向查询的XML文本自动文摘研究
基于统计和语义分析的中英文自动文摘的研究
面向查询的多文档自动文摘技术研究
面向查询的多文档自动文摘技术研究