With the increase of people's attention on privacy protection, how to protect data privacy as well as to perform accurate data clustering on large scale, high dimensional data set becomes one of the most important cutting edge research issues both in the domain of data mining and privacy protection. The key difficulties of this research issue lie in: how to automatically identify the proposed minimum complete implicit prirvacy dimension, how to design dynamic adaptive privacy protection method to gradually approximate desired clustering accuracy, and eventually to guarantee accurate clustering results satisfying privacy protection concerns. According to this scientific problem, we proposed the following research contents: (1) local linear ridge regression learning based minimum complete implicit privacy dimension identification algorithm, which is used to solve the problem that how to identify implicit privacy dimension set; (2) the dimension's data distribution similarity and deviation based privacy dimension protection method, which is used to adaptively tune the strength of protection on implicit privacy dimension set; (3) the adaptive implicit privacy dimension protection based novel Gaussian mixture model and its learning algorithm, which is used to solve the learning problem of the optimal clustering model on single data source; (4) the local model parameter integration based learning algorithm to learn global clustering model, which is used to eventually solve the learning problem of the optimal clustering model on the large-scale, high dimensional data set.
随着人们的隐私保护意识的提升,如何在实现隐私保护的前提下,对大规模高维度数据进行准确的聚类分析,已经成为数据挖掘和隐私保护领域中的重要前沿交叉课题。这个课题的关键研究难点是:如何从高维特征空间中自动识别出最小完备非显式隐私维度集合,并设计出一个能逐步逼近目标聚类精度的自适应隐私维度保护方法,从而在满足隐私保护要求的前提下保证聚类结果的精准性。本课题围绕这个科学问题,提出了以下研究内容:(1)基于局部线性脊回归学习的最小完备非显式隐私维度识别算法,用于解决非显式隐私维度集的识别问题;(2)基于维度间相似度和偏离度计算的隐私维度保护方法,用于解决自适应调整隐私维度集的保护强度的问题;(3)基于自适应非显式隐私维度保护的新型高斯混合聚类算法,用于解决单源高维数据的最优聚类模型学习问题;(4)基于局部模型参数融合的全局聚类算法,用于解决大规模、多源高维数据的最优聚类模型学习问题。
随着人们的隐私保护意识的提升,如何在实现隐私保护的前提下,对大规模高维度数据进行准确的聚类分析,已经成为数据挖掘和隐私保护领域中的重要前沿交叉课题。这个课题的关键研究难点是:如何从高维特征空间中自动识别出最小完备非显式隐私维度集合,并设计出一个能逐步逼近目标聚类精度的自适应隐私维度保护方法,从而在满足隐私保护要求的前提下保证聚类结果的精准性。..本课题展开了以下研究内容:(1)基于局部线性脊回归学习的最小完备非显式隐私维度识别算法,用于解决非显式隐私维度集的识别问题;(2)基于维度间相似度和偏离度计算的隐私维度保护方法,用于解决自适应调整隐私维度集的保护强度的问题;(3)基于自适应非显式隐私维度保护的新型高斯混合聚类算法,用于解决单源高维数据的最优聚类模型学习问题;(4)基于局部模型参数融合的全局聚类算法,用于解决大规模、多源高维数据的最优聚类模型学习问题。..本课题在实现大规模数据集抽取的基础上,完成高维数据维度推理学习,以及隐私数据聚类保护研究,并延展到耦合数据的隐私推理学习问题,并在社交网络数据集上进行验证,相关结果已发表为期刊会议论文17篇,包括Information Sciences, Knowledge and Information systems等重要领域期刊,以及Web Intelligence重要国际会议论文。课题组培养硕士、博士生共约十余人,取得软件著作权一项,在申专利两项。通过本课题研究,课题组在高维隐私保护以及耦合数据的隐私保护问题上,已经取得了一定的国际学术认可。
{{i.achievement_title}}
数据更新时间:2023-05-31
低轨卫星通信信道分配策略
F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度
适用于带中段并联电抗器的电缆线路的参数识别纵联保护新原理
三级硅基填料的构筑及其对牙科复合树脂性能的影响
Wnt 信号通路在非小细胞肺癌中的研究进展
面向高维数据发布的差分隐私保护方法研究
基于约束的高维数据聚类
高维稀疏数据聚类研究
基于特征聚类的高维混合属性数据特征选择方法