信息检索模型是在大规模、跨域、多态的信息搜索应用中的基础核心技术。现有的信息检索模型严重依赖于参数的调节,存在鲁棒性低的问题,具体表现为检索精度的不稳定性。本课题从文档先验概率均匀分布这一概率检索模型基本假设的有效性出发,提出基于超几何分布的无参检索模型,拟解决现有模型中存在的低鲁棒性和依赖调参的问题。主要研究内容为首先量化定义检索模型鲁棒性,其次检验文档先验概率均匀分布假设的有效性,并提出修正该假设的新方法,进而推导无参超几何模型的可计算和实现的公式,最后结合相关反馈提升检索精度。本项目提出的新模型将在TREC、NTCIR等25TB以上大型标准数据集上通过多种搜索任务进行验证评价,希望无参新模型在统计意义上达到或超过现有带参模型调优后的检索精度。本项目能够进一步推动无参信息检索模型的理论研究,其成果可望提升面向海量、异构数据的检索应用的精度和适应性。
现有信息检索模型严重依赖于参数的调节,存在鲁棒性低的问题,具体表现为检索精度的不稳定性。尤其是近年来随着大数据时代的兴起,如果保证在大规模数据集上检索效果的稳定性,成为检索模型研究的新课题。为解决该问题,本课题首先从词频概率分布入手,研究了检索模型的鲁棒性。然后本课题推导得到无参超几何模型的可计算和实现的公式,在TREC标准数据集上的实验表明,无参超几何模型可以得到与BM25、PL2等经典模型近似的检索精度,并且在与查询扩展技术结合后,可以得到超过BM25模型的检索精度,这证实了新模型的有效性。接下来,本课题尝试采用了Weibull, Exponential, Rayleigh, Gamma等多种词项分布形式进行概率检索建模,通过在DOTGOV2、ClueWeb09 B等大规模数据集上的实验表明,新模型在大数据上对词项频率分布的刻画能力和检索适用性均超过BM25、PL2等经典检索模型,因此可以在ClueWeb09 B超大规模数据集上得到显著超过以上经典模型的检索精度。最后,课题组还尝试了采用多种概率分布形式进行Bi-gram建模,并且通过在多个标准数据集上的实验证实了新模型的有效性。综上所述,本项目提出的新模型在DOTGOV2、ClueWeb09等大型标准数据集上通过多种搜索任务进行验证评价,结果表明无参新模型在统计意义上能够达到或超过现有带参模型调优后的检索精度。本项目的研究结果进一步推动了无参信息检索模型的理论研究,其成果可望提升面向海量、异构数据的检索应用的精度和适应性。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
中国参与全球价值链的环境效应分析
基于概率图的文本检索模型及算法研究
基于强化学习的信息检索排序模型研究
信息检索义项矩阵模型研究
基于本体的数字图书馆信息检索模型研究