With the rapid development of information and communications technology,tera-scale data has been accumulated inside various governmental and private sectors. It becomes a critical problem in the applications of information sharing and knowledge discovery to conduct tera-scale data mining without leaking commercial secrecy and individual privacy. The major shortcomings of the state-of-the-art research are low efficiency in transforming tera-scale private data, and failure to consider the uncertainty produced by the transforms. This project aims at the tera-scale and heterogeneity of the private data, proposes systematic and novel solutions for both data publishers and miners. For the data publishers, the project will provide privacy-preserving transforms with high efficiency, high security, and high data utility. For the data miners, the project will provide new data mining approaches. These approaches will be suitable for single miner and federated miners, be able to leverage the uncertainty generated by the privacy-preserving transforms. They can thwart the sabotage on mining process by malicious participants, and are also coupled with parallel mining framework based on MapReduce. The outcomes of the project will be especially applicable to those sectors in highly demand of information sharing while restricted by relevant legislations, such as financial, insurance, telecommunication and medical industries. The outcomes will effectively accelerate the information circulation among those different sectors, and bring about substantial economic and societal benefits.
信息技术的飞速发展已经使得许多行业和部门积累了海量的数据。在不泄漏商业机密、用户隐私的条件下对这些海量数据进行挖掘,是信息共享、知识发现等实践应用中亟待解决的核心问题之一。现有研究的主要不足之处在于对海量数据变换时效率过低、挖掘时没有充分考虑数据变换带来的不确定性。本项目针对数据海量、异构的特点,为数据发布者和挖掘方提出系统的、创新性解决方案。对于数据发布者,本项目将提出兼具高效率、高安全、高数据可用性的隐私保护变换;对于数据挖掘方,本项目将研究新型数据挖掘方法,这些方法可适用于单一挖掘和联合挖掘,可调和隐私保护变换给数据带来的不确定性,可防止恶意参与者对挖掘过程的破坏,也将配备基于MapReduce的并行机制。本项目研究成果可高度适用于急需信息共享却受隐私保护法规限制的行业部门,如金融保险业、电信、医疗等,将有效促进不同行业间信息流通,带来可观的经济和社会效益。
信息技术的飞速发展已经使得许多行业和部门积累了海量的数据。在不泄漏商业机密、用户隐私的条件下对这些海量数据进行挖掘,是信息共享、知识发现等实践应用中亟待解决的核心问题之一。现有研究的主要不足之处在于对海量数据变换时效率过低、挖掘时没有充分考虑数据变换带来的不确定性。本项目针对数据海量、异构的特点,为数据发布者和挖掘方提出了系统的、创新性解决方案。对于数据发布者,本项目提出了兼具高效率、高安全、高数据可用性的隐私保护变换;特别是,本项目研究发现了针对随机扰乱的、比前人使用的攻击危害更甚的链接攻击,并研究了防范该类攻击所需扰乱参数的理论界限。对于数据挖掘方,本项目研究了新型数据挖掘方法,可调和隐私保护变换给数据带来的不确定性,可防止挖掘结果泄露给不可信任的挖掘者,也可以高度并行化的方式执行。本项目还研究了半结构化、非结构化数据的处理与隐私保护,将其应用于网络流量分析、图像检索等。本项目执行期内发表论文8篇,其中SCI检索论文2篇,EI检索论文8篇,ISTP检索论文5篇。本项目研究成果可高度适用于急需信息共享却受隐私保护法规限制的行业部门,如金融保险业、电信、医疗等,将有效促进不同行业间信息流通,带来可观的经济和社会效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
Protective effect of Schisandra chinensis lignans on hypoxia-induced PC12 cells and signal transduction
论大数据环境对情报学发展的影响
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
面向云工作流安全的任务调度方法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
面向新型隐私保护的海量图数据挖掘
隐私保护的时空数据挖掘研究
面向隐私保护的数据挖掘方法研究
海量数据查询中的双向隐私保护机制研究