保护隐私的海量数据挖掘

基本信息
批准号:61202427
项目类别:青年科学基金项目
资助金额:25.00
负责人:桑应朋
学科分类:
依托单位:中山大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:张宗华,贺萍,范宗勤,徐群群
关键词:
海量数据随机化处理数据挖掘隐私保护k匿名化
结项摘要

With the rapid development of information and communications technology,tera-scale data has been accumulated inside various governmental and private sectors. It becomes a critical problem in the applications of information sharing and knowledge discovery to conduct tera-scale data mining without leaking commercial secrecy and individual privacy. The major shortcomings of the state-of-the-art research are low efficiency in transforming tera-scale private data, and failure to consider the uncertainty produced by the transforms. This project aims at the tera-scale and heterogeneity of the private data, proposes systematic and novel solutions for both data publishers and miners. For the data publishers, the project will provide privacy-preserving transforms with high efficiency, high security, and high data utility. For the data miners, the project will provide new data mining approaches. These approaches will be suitable for single miner and federated miners, be able to leverage the uncertainty generated by the privacy-preserving transforms. They can thwart the sabotage on mining process by malicious participants, and are also coupled with parallel mining framework based on MapReduce. The outcomes of the project will be especially applicable to those sectors in highly demand of information sharing while restricted by relevant legislations, such as financial, insurance, telecommunication and medical industries. The outcomes will effectively accelerate the information circulation among those different sectors, and bring about substantial economic and societal benefits.

信息技术的飞速发展已经使得许多行业和部门积累了海量的数据。在不泄漏商业机密、用户隐私的条件下对这些海量数据进行挖掘,是信息共享、知识发现等实践应用中亟待解决的核心问题之一。现有研究的主要不足之处在于对海量数据变换时效率过低、挖掘时没有充分考虑数据变换带来的不确定性。本项目针对数据海量、异构的特点,为数据发布者和挖掘方提出系统的、创新性解决方案。对于数据发布者,本项目将提出兼具高效率、高安全、高数据可用性的隐私保护变换;对于数据挖掘方,本项目将研究新型数据挖掘方法,这些方法可适用于单一挖掘和联合挖掘,可调和隐私保护变换给数据带来的不确定性,可防止恶意参与者对挖掘过程的破坏,也将配备基于MapReduce的并行机制。本项目研究成果可高度适用于急需信息共享却受隐私保护法规限制的行业部门,如金融保险业、电信、医疗等,将有效促进不同行业间信息流通,带来可观的经济和社会效益。

项目摘要

信息技术的飞速发展已经使得许多行业和部门积累了海量的数据。在不泄漏商业机密、用户隐私的条件下对这些海量数据进行挖掘,是信息共享、知识发现等实践应用中亟待解决的核心问题之一。现有研究的主要不足之处在于对海量数据变换时效率过低、挖掘时没有充分考虑数据变换带来的不确定性。本项目针对数据海量、异构的特点,为数据发布者和挖掘方提出了系统的、创新性解决方案。对于数据发布者,本项目提出了兼具高效率、高安全、高数据可用性的隐私保护变换;特别是,本项目研究发现了针对随机扰乱的、比前人使用的攻击危害更甚的链接攻击,并研究了防范该类攻击所需扰乱参数的理论界限。对于数据挖掘方,本项目研究了新型数据挖掘方法,可调和隐私保护变换给数据带来的不确定性,可防止挖掘结果泄露给不可信任的挖掘者,也可以高度并行化的方式执行。本项目还研究了半结构化、非结构化数据的处理与隐私保护,将其应用于网络流量分析、图像检索等。本项目执行期内发表论文8篇,其中SCI检索论文2篇,EI检索论文8篇,ISTP检索论文5篇。本项目研究成果可高度适用于急需信息共享却受隐私保护法规限制的行业部门,如金融保险业、电信、医疗等,将有效促进不同行业间信息流通,带来可观的经济和社会效益。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

Protective effect of Schisandra chinensis lignans on hypoxia-induced PC12 cells and signal transduction

Protective effect of Schisandra chinensis lignans on hypoxia-induced PC12 cells and signal transduction

DOI:10.1080/15287394.2018.1502561
发表时间:2018
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
4

面向云工作流安全的任务调度方法

面向云工作流安全的任务调度方法

DOI:10.7544/issn1000-1239.2018.20170425
发表时间:2018
5

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究

DOI:
发表时间:2020

桑应朋的其他基金

相似国自然基金

1

面向新型隐私保护的海量图数据挖掘

批准号:61702132
批准年份:2017
负责人:尹丹
学科分类:F0202
资助金额:25.00
项目类别:青年科学基金项目
2

隐私保护的时空数据挖掘研究

批准号:60703111
批准年份:2007
负责人:刘玉葆
学科分类:F0202
资助金额:18.00
项目类别:青年科学基金项目
3

面向隐私保护的数据挖掘方法研究

批准号:60403041
批准年份:2004
负责人:童云海
学科分类:F0210
资助金额:22.00
项目类别:青年科学基金项目
4

海量数据查询中的双向隐私保护机制研究

批准号:61572413
批准年份:2015
负责人:胡海波
学科分类:F0202
资助金额:63.00
项目类别:面上项目