面向跨类型离群检测的度量空间索引构建方法研究

基本信息
批准号:61802063
项目类别:青年科学基金项目
资助金额:21.00
负责人:许红龙
学科分类:
依托单位:佛山科学技术学院
批准年份:2018
结题年份:2021
起止时间:2019-01-01 - 2021-12-31
项目状态: 已结题
项目参与者:谭海燕,文翰,沈东芸,王晓慧,黄忠
关键词:
度量空间索引支撑点离群检测跨类型
结项摘要

The traditional customized outlier detection algorithms usually support single data type only, so that we have to develop corresponding outlier detection systems for every data type. With the variety challenge of big data, it is urgent to study the universal outlier detection algorithm for various data types. This project aims to establish a theoretical framework of universal outlier detection based on metric space index, optimize the use of distance triangle inequality, make some breakthroughs such as the insufficient available information caused by the higher abstraction, and the low reuse rate of distance information, then solve some key problems such as defining the goals of pivot selection, reducing the pivot candidate set, improving index efficiency. Specifically, at first, completely on the basis of distance, we will research an index based metric space outlier detection model. Following that, fast randomly sampling based pivot selection target and selection algorithm will be devised. Furthermore, we will study a heterogeneous multilevel metric space index construction algorithm and develop a prototype system to carry out verified experiments with the UCI dataset and examples of various data types. The research results are expected to provide new ideas for the analysis and mining of cross data type, also offer useful reference for the selection of pivots and index construction in this field.

传统专用离群检测算法通常仅支持单一数据类型,针对各类数据特点研发相应的离群检测系统。面对大数据时代数据类型多样性挑战,迫切需要开展面向跨类型数据的离群检测算法研究。本项目旨在建立基于度量空间索引的跨类型离群检测理论框架,充分利用距离三角不等性,突破高层次抽象导致的可用信息过少、距离信息重用率低等瓶颈,解决支撑点选取目标不明确、候选范围过大、单层索引效率低下等问题。主要研究内容包括:首先,在完全基于距离的前提下,研究基于索引的度量空间离群检测模型;其次,基于快速随机抽样,研究索引所用全局支撑点的选取目标及高效选取算法;最后,研究面向离群检测的异构多层次度量空间索引构建方法,并研发原型系统,结合多种类型的UCI数据集及实例,验证所提模型和算法的有效性。本项目的研究将为跨类型数据的分析挖掘提供新的思路,为本领域的支撑点选取及索引构建问题提供有益借鉴。

项目摘要

面对大数据时代数据类型多样性挑战,针对单一数据特点研发的传统专用离群检测算法难以同时胜任多种数据类型。在此背景下,本项目开展面向跨类型数据的离群检测算法研究,建立了基于度量空间索引的跨类型离群检测理论框架,充分利用距离三角不等性,突破高层次抽象导致的可用信息过少、距离信息重用率低等瓶颈,解决索引建立开销大且效率低下的问题。.项目进展顺利,各项研究计划均已完成。主要研究内容包括:基于索引的度量空间离群检测模型,基于快速随机抽样的多重支撑点选取算法,异构多层次度量空间索引构建方法,并研发了原型系统,面向多种应用领域进行探索。项目利用索引建立阶段支撑点与数据集所有对象的距离计算结果,进一步计算出离群检测的预阈值,创造性地使数据集首个数据块在离群检测时即可用预阈值排除部分非离群点,减少了距离计算次数,在4个常用数据集上的实验结果表明其检测效率较不使用预阈值时平均提高约12%。另一方面,项目从如何确定支撑点处于密集区域开展研究,提出了一种基于自适应截止距离的密度峰值的支撑点选取算法,以快速获得合适的支撑点,并基于该算法开发了一种改进的离群点检测算法,实验结果表明其较不使用该支撑点选取算法减少了53%的距离计算次数。在建立多层次索引方面,项目研究了同时建立一维映射索引、候选支撑点空间索引,配合相应的剪枝规则,利用距离三角不等性,最终实现加速离群检测过程。项目成果主要包括发表/录用学术论文4篇(其中SCI 3篇、EI 1篇),PCT 1项,实用新型专利2项,获软件著作权登记1项,申请中国发明专利7项,获奖励2项,培养本科生6人,线下参加国内外学术合作交流11次。.本项目的研究为跨类型数据的分析挖掘提供了新的思路,为数据挖掘领域的支撑点选取及度量空间索引构建问题提供有益借鉴。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015
5

基于全模式全聚焦方法的裂纹超声成像定量检测

基于全模式全聚焦方法的裂纹超声成像定量检测

DOI:10.19650/j.cnki.cjsi.J2007019
发表时间:2021

许红龙的其他基金

相似国自然基金

1

基于支撑点空间模型的度量空间索引研究

批准号:61170076
批准年份:2011
负责人:毛睿
学科分类:F0202
资助金额:55.00
项目类别:面上项目
2

面向海量数据的语境离群点检测技术研究

批准号:61170180
批准年份:2011
负责人:商琳
学科分类:F06
资助金额:55.00
项目类别:面上项目
3

支持快速相似检索的高维度量空间索引技术研究

批准号:60873039
批准年份:2008
负责人:曹奎
学科分类:F0202
资助金额:29.00
项目类别:面上项目
4

空间目标球面网格时空索引构建及应用研究

批准号:41701463
批准年份:2017
负责人:施群山
学科分类:D0114
资助金额:26.00
项目类别:青年科学基金项目