传统高维索引优化技术,往往基于串行模式,受制于主频和储存限制,性能难以大幅提升。面向新一代高维索引技术的发展趋势和应用需求,系统研究索引数据量化、索引编码和压缩等核心技术,探索高维索引结构线性存储策略,设计基于并行模式高维索引算法,挖掘多核CPU和GPU内在并行计算能力,提升单机检索效率;研究并行索引、高维聚类及分布式多级存储技术,实现多并发条件下海量数据的高效检索;研究联合索引策略,通过对快速索引算法有效组合,构建强分类器,提升检索的准确度,避免单一检索算法存在的数据依赖性。本项目研究将集中解决高维索引存在的维度灾难、性能瓶颈、I/O瓶颈等关键性技术难题,实现亿级规模高维空间的快速匹配和检索,为海量多媒体信息检索、数据挖掘、生物信息检索和时序数据分析等领域提供强有力的支撑。
项目组按原定研究计划对所涉及的主要内容进行了深入研究,在高维并行检索、高维数据的压缩与层次存储、图像特征提取与匹配等领域都取得了丰富成果。(1)提出了一种非常有效的并行多GPU的海量图像数据检索架构,通过并行化指令设计、数据存储和运算负载平衡,充分挖掘多核和众核硬件的内在并行性,实现了接近千万级别的图像数据的实时检索,并将该技术应用于电子商务图片检索。(2)为进一步提高数据的存储效率,研究分析了高维数据的维度压缩理论和方法,通过对维度数据的按维度分布特性优化组合,在损失一定的精度条件下,能极大的压缩其存储需求。在此基础上,提出了一种二重检索算法,第一次以压缩数据为基础进行检索,然后抽取第一次检索排序结果,采用非压缩数据,进行精确检索计算。该方法可以兼顾存储的需求和检索的效率,能较好的解决超大数据的检索需求,但在检索的准确率方面需要进一步提升。(3)在高维数据的预处理和交互过程中,分析采用多层次的存储策略,图像特征数据存储在高速外存,如闪存中,原始数据则存放在普通外存或大型数据库中;原始图像数据计算其缩略图并压缩存储,以减少IO访问次数;同时采用检索缓存设计,减少类似检索需求时候对系统资源的消耗,提高系统整体效率。.在论文发表方面,共发表相关论文近20篇,其中SCI检索期刊论文2篇,EI检索期刊或会议论文4篇,专利申请3个,软著申请3个。
{{i.achievement_title}}
数据更新时间:2023-05-31
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于混合优化方法的大口径主镜设计
采用深度学习的铣刀磨损状态预测模型
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
计及焊层疲劳影响的风电变流器IGBT 模块热分析及改进热网络模型
高维数据索引结构的研究
基于高维大规模数据的集成建模方法的研究
免索引数据库存储与并行处理技术的研究
海量高维天体光谱数据挖掘及其并行化研究