基于非显式隐私保护的大规模高维数据聚类方法研究

基本信息

批准号：61370213

项目类别：面上项目

资助金额：75.00

负责人：张晓峰

学科分类：

依托单位：哈尔滨工业大学

批准年份：2013

结题年份：2017

起止时间：2014-01-01 - 2017-12-31

项目状态：已结题

项目参与者：张国威,郑宏珍,王岢,张柱金,吴庆耀,李旭涛,黄晓辉,李春山,邓会建

关键词：

聚类非显式隐私隐私保护

结项摘要

With the increase of people's attention on privacy protection, how to protect data privacy as well as to perform accurate data clustering on large scale, high dimensional data set becomes one of the most important cutting edge research issues both in the domain of data mining and privacy protection. The key difficulties of this research issue lie in: how to automatically identify the proposed minimum complete implicit prirvacy dimension, how to design dynamic adaptive privacy protection method to gradually approximate desired clustering accuracy, and eventually to guarantee accurate clustering results satisfying privacy protection concerns. According to this scientific problem, we proposed the following research contents: (1) local linear ridge regression learning based minimum complete implicit privacy dimension identification algorithm, which is used to solve the problem that how to identify implicit privacy dimension set; (2) the dimension's data distribution similarity and deviation based privacy dimension protection method, which is used to adaptively tune the strength of protection on implicit privacy dimension set; (3) the adaptive implicit privacy dimension protection based novel Gaussian mixture model and its learning algorithm, which is used to solve the learning problem of the optimal clustering model on single data source; (4) the local model parameter integration based learning algorithm to learn global clustering model, which is used to eventually solve the learning problem of the optimal clustering model on the large-scale, high dimensional data set.

项目摘要

随着人们的隐私保护意识的提升，如何在实现隐私保护的前提下，对大规模高维度数据进行准确的聚类分析，已经成为数据挖掘和隐私保护领域中的重要前沿交叉课题。这个课题的关键研究难点是：如何从高维特征空间中自动识别出最小完备非显式隐私维度集合，并设计出一个能逐步逼近目标聚类精度的自适应隐私维度保护方法，从而在满足隐私保护要求的前提下保证聚类结果的精准性。..本课题展开了以下研究内容：（1）基于局部线性脊回归学习的最小完备非显式隐私维度识别算法，用于解决非显式隐私维度集的识别问题；（2）基于维度间相似度和偏离度计算的隐私维度保护方法，用于解决自适应调整隐私维度集的保护强度的问题；（3）基于自适应非显式隐私维度保护的新型高斯混合聚类算法，用于解决单源高维数据的最优聚类模型学习问题；（4）基于局部模型参数融合的全局聚类算法，用于解决大规模、多源高维数据的最优聚类模型学习问题。..本课题在实现大规模数据集抽取的基础上，完成高维数据维度推理学习，以及隐私数据聚类保护研究，并延展到耦合数据的隐私推理学习问题，并在社交网络数据集上进行验证，相关结果已发表为期刊会议论文17篇，包括Information Sciences, Knowledge and Information systems等重要领域期刊，以及Web Intelligence重要国际会议论文。课题组培养硕士、博士生共约十余人，取得软件著作权一项，在申专利两项。通过本课题研究，课题组在高维隐私保护以及耦合数据的隐私保护问题上，已经取得了一定的国际学术认可。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：

发表时间：2021

DOI：

发表时间：2020

DOI：10.7500/AEPS20180327002

发表时间：2019

DOI：

发表时间：2021

张晓峰的其他基金

批准号：31601602

批准年份：2016

资助金额：20.00

项目类别：青年科学基金项目

批准号：51205285

批准年份：2012

资助金额：25.00

项目类别：青年科学基金项目

批准号：81774343

批准年份：2017

资助金额：55.00

项目类别：面上项目

批准号：61872108

批准年份：2018

资助金额：64.00

项目类别：面上项目

批准号：81173276

批准年份：2011

资助金额：55.00

项目类别：面上项目

批准号：30901207

批准年份：2009

资助金额：22.00

项目类别：青年科学基金项目

批准号：31871931

批准年份：2018

资助金额：59.00

项目类别：面上项目

相似国自然基金

面向高维数据发布的差分隐私保护方法研究

批准号：61702119

批准年份：2017

负责人：欧阳佳

学科分类：F0206

资助金额：25.00

项目类别：青年科学基金项目

基于约束的高维数据聚类

批准号：61272374

批准年份：2012

负责人：张宪超

学科分类：F0607

资助金额：80.00

项目类别：面上项目

高维稀疏数据聚类研究

批准号：70771007

批准年份：2007

负责人：武森

学科分类：G01

资助金额：16.00

项目类别：面上项目

基于特征聚类的高维混合属性数据特征选择方法

批准号：61806131

批准年份：2018

负责人：贾红

学科分类：F0603

资助金额：25.00

项目类别：青年科学基金项目

基于非显式隐私保护的大规模高维数据聚类方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

基于铁路客流分配的旅客列车开行方案调整方法

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

基于限流级差配合的城市配电网高选择性继电保护方案

长链基因间非编码RNA 00681竞争性结合miR-16促进黑素瘤细胞侵袭和迁移

张晓峰的其他基金

利用叶蝉细胞瞬时表达系统研究水稻瘤矮病毒在介体细胞内的增殖机制

多孔质节流器渗透率空间分布性对气体静压轴承静态性能影响的研究

活骨灌注液介导microRNAs调节BMSCs定向分化治疗股骨头坏死的机制研究

大规模异构社交网络的隐私保护方法研究

依据"活血/补肾法"运用中药关节腔灌注对股骨头缺血性坏死修复机制的研究

农药生产工人血液生化指标变化与PON1基因多态性关系

水稻黄矮病毒M蛋白调控黑尾叶蝉多胺合成途径的分子机制

相似国自然基金