In information retrieval (IR) field, two risk frameworks, namely risk minimization framework and reward-risk framework, have continuously influenced the design and analysis of many major IR models. These two risk frameworks have modelled the risk in the parameter space of some major IR models, and achieved good IR performance in many IR tasks. However, it still lacks a formal analysis of the correlation of the two kinds of risks in the two frameworks, to analytically address whether or not there is a tradeoff between two types of risks and how to avoid them simultaneously. Such a tradeoff can to some extent prevent the IR models from substantially development. The aim of this project is to formally analyze the correlation between two kinds of risks, and explore intuitions and methods of how to balance and control them effectively. Specifically, based on the parameter estimation theory (e.g., the bias-variance theory), this project will formally analyze two kinds of relevance estimation risks, and develop the theoretical lower-bound of the relevance estimation. In terms of the risk measurement, we will develop a unified risk measurement that can consider both the traditional metrics based on the performance mean (e.g., MAP) and the emerging risk measurement based on the performance variance. Based on the parameter estimation theory and systematic empirical evaluation, we will propose adaptive relevance estimation methods for different kinds of queries or users. The proposed adaptive relevance estimation methods will then be applied to alleviate the overall retrieval risk of some IR models, such as query expansion and personalized retrieval method.
风险最小化框架和收益-风险框架对信息检索模型的设计产生了广泛和持续的影响,但是对这两种框架下两类风险间的关联性目前仍缺乏形式化分析,例如对两类风险之间何时存在矛盾以及能否同时规避等问题尚未利用解析方法进行深入研究。若两类风险存在矛盾,设计检索模型时常会陷入减小某类风险的同时却加大另一类风险的两难困境,这将阻碍信息检索模型的实质性进展。针对上述问题,本项目将基于参数估计理论(如偏差-方差理论),形式化分析检索模型中相关性估计的两类风险之间的关联性,并研究相关性估计的风险下界,寻找进一步发展信息检索模型的突破口。同时,我们也将运用偏差-方差理论设计检索性能的整体评价指标,使其能够兼顾基于性能均值的传统指标和基于性能方差的风险指标。通过理论分析和实证评价,发展针对不同查询或不同用户的自适应相关性估计方法,并进一步地将这种方法应用于改善信息检索模型(如查询扩展模型和个性化检索模型)的整体性能风险。
在信息检索研究中,风险(Risk)研究是一个基础和重要的课题。信息检索风险有多种表现形式。以查询扩展模型为例,扩展后的查询模型可以更准确的反映用户的检索意图,从而提高检索的有效性,但是查询扩展词中经常会出现一些和用户搜索意图不相关的噪声词,这些噪声词反而会降低检索效果,导致查询扩展的风险。而且,设计检索模型时常会陷入减小某类风险(例如检索)的同时却加大另一类风险的两难困境,这将阻碍信息检索模型的实质性进展。本项目主要研究内容包括:(1)基于参数估计理论的两类风险关联性分析与控制研究。(2)兼顾性能均值和性能方差的信息检索整体性能评价方法及指标。(3)基于风险实证研究和参数估计理论的自适应性信息检索模型。本项目将基于参数估计理论 (如偏差-方差理论),寻找进一步发展信息检索模型的突破口。在风险评价方法方面,基于参数估计理论的偏差-方差技术,提出了新颖的信息检索风险分析框架。分析不同模型设计因素与各类检索风险的对应关系,并给出降低风险的一般性原则。进而提出一种基于查询词多项概率分布的非相关信息分离模型的一般化框架。同时,结合风险分析理论和量子概率理论,在Ad-hoc信息检索、Web检索、个性化检索、多样化检索、会话搜索等诸多应用,验证了所提出的风险控制方法和信息检索模型的有效性和稳定性。 在本项目资助下,围绕项目研究目标已经取得研究成果,发表JCR一区/二区期刊(ACM TIST,Information Sciences, JASIST)论文3篇;CCF推荐A/B类会议论文(SIGIR,IJCAI,CIKM,EMNLP,BIBM等)7篇。在项目资助下,完成了大量有价值的研究,推动了信息检索相关研究领域的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
敏感性水利工程社会稳定风险演化SD模型
miR-590-3p靶向微管蛋白辅助因子A(TBCA)调控EMT介导的肾透明细胞癌恶性进展机制研究
基于CG理论的信息检索研究
基于草图的地理信息检索理论与方法研究
问答式信息检索的理论与方法研究
基于潜在语义对偶空间的跨语言信息检索理论和算法研究