时空高效的在线动态倒排索引混合更新机制研究

基本信息
批准号:61103019
项目类别:青年科学基金项目
资助金额:24.00
负责人:刘小珠
学科分类:
依托单位:武汉理工大学
批准年份:2011
结题年份:2014
起止时间:2012-01-01 - 2014-12-31
项目状态: 已结题
项目参与者:彭煜玮,贺远华,唐祖锴,陈旭,石德钏,王佩佩
关键词:
倒排索引信息检索数据管理索引更新
结项摘要

面对迅猛增长、动态性强、随机更新的海量数据,索引实时更新、动态调节与在线检索性能的不足日益凸显。项目将结合申请人在基于倒排索引的信息检索关键技术方面的前期研究工作和该学科的最新成果,针对在线数据更新的随机性与动态性导致索引更新性能与系统检索性能急剧恶化的问题,探索影响在线动态倒排索引更新性能的关键因素,揭示索引更新性能与长短列表数量及其存储模式、索引结构、更新策略之间的内在关系,重点研究时空高效的在线动态倒排索引混合更新技术,包括:基于Zipf定律的长短列表数量预测模型;基于链表区分长短列表的统一存储模型;基于历史分配空间的自适应学习与分块均匀性规则的长短列表空间管理机制;基于随机访问分块倒排文件自索引的立即合并与上限Y相邻多路合并混合更新机制。取得原创性的科研成果,为实现基于倒排索引的海量数据在线动态更新技术提供科学依据。本课题对进一步研究高性能海量数据管理与维护技术有着重要意义。

项目摘要

结合申请人在基于倒排索引的信息检索关键技术方面的前期研究工作和该学科的最新成果,针对在线数据更新的随机性与动态性导致索引更新性能与系统检索性能急剧恶化的问题,探索影响在线动态倒排索引更新性能的关键因素,重点研究了时空高效的在线动态倒排索引混合更新技术,同时对无线传感器网络中的数据管理机制等进行了初步研究,取得了一系列的研究成果。主要工作包括:.(1)对影响倒排索引在线动态更新性能的因素进行了深入分析。基于Zipf分布定律,通过理论分析对长短列表数量分布进行了合理估计,并给出了长、短列表数量计算的数学表达式。通过对实际应用系统中数据信息动态性与随机性的有效刻画,实现了长短列表增量的有效近似预测。.(2)对短列表空间管理机制进行了深入研究。采用索引连续分块技术,实现了基于线性增长、指数增长、分块均匀性规则对短列表空间进行管理;将连续的物理空间,按照一定大小分割成字节数相等的若干部分。.(3)对长列表空间管理机制进行了研究。考虑到网络中长短列表数据分布的差异性,长列表采用动态预分配空间的链表结构来存储;考虑到长列表所占空间大、在物理上分配非连续的物理空间、其大小差异性大的特征,动态更新所需要的空间进行动态预留剩余空间,尽可能减少动态更新过程中产生的磁盘读写操作次数。.(4)提出了基于链表区分长短列表的统一存储模型。对两种列表都采用链表的形式来管理,对于短列表采用索引连续分块技术来存储;对于长列表采用动态预分配空间的链表结构来存储,尽可能减少动态更新过程中产生的磁盘读写操作次数。.(5)提出了一种基于分配空间自学习的在线动态索引混合更新机制。在理论分析与统一存储模型的基础上,根据长短列表增量数据的各自特点,动态分配相应的空间,实现长短列表空间的有效管理以提高空间性能。采用基于历史分配空间的自适应学习机制,实现预留空间的有效估计,在减少空间消耗的同时兼顾长列表索引更新与查询性能。.(6)对无线传感器网络中的数据管理机制进行了初步研究,提出了紧凑数据索引存储技术、时延有效的可靠备份路由协议等。.相关成果在国内外学术期刊上发表(录用)学术论文6篇,其中SCI论文3篇,EI论文3篇,获软件著作权2项;与合作单位联合培养博士研究生1名,硕士研究生2名。本课题的研究对进一步研究高效的大数据管理技术具有重要意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

不确定失效阈值影响下考虑设备剩余寿命预测信息的最优替换策略

不确定失效阈值影响下考虑设备剩余寿命预测信息的最优替换策略

DOI:10.11887/j.cn.202101019
发表时间:2021
2

环境信息披露会影响分析师盈余预测吗?

环境信息披露会影响分析师盈余预测吗?

DOI:
发表时间:2017
3

国际比较视野下我国开放政府数据的现状、问题与对策

国际比较视野下我国开放政府数据的现状、问题与对策

DOI:
发表时间:2016
4

水文水力学模型及其在洪水风险分析中的应用

水文水力学模型及其在洪水风险分析中的应用

DOI:
发表时间:2019
5

基于体素化图卷积网络的三维点云目标检测方法

基于体素化图卷积网络的三维点云目标检测方法

DOI:10.3788/IRLA20200500
发表时间:2021

刘小珠的其他基金

相似国自然基金

1

基于倒排索引改进势函数的黄瓜病害图像识别研究

批准号:31501223
批准年份:2015
负责人:袁媛
学科分类:C1301
资助金额:20.00
项目类别:青年科学基金项目
2

基于领域时空特征的高效多维索引方法研究

批准号:61370091
批准年份:2013
负责人:冯钧
学科分类:F0202
资助金额:78.00
项目类别:面上项目
3

大规模动态后缀索引的高效率算法研究

批准号:61872391
批准年份:2018
负责人:农革
学科分类:F0201
资助金额:63.00
项目类别:面上项目
4

多模态多层次混合的场景数据高效组织索引方法

批准号:41871321
批准年份:2018
负责人:周艳
学科分类:D0114
资助金额:58.00
项目类别:面上项目