Network data are increasingly collected in a variety of fields such as social science and epidemiology. These network data may contain privacy relationships among individuals (e.g., the closeness between peoples in social network data). To let more researchers join in the study and be better to obtain valued information, collector needs to release the network data. If we directly release the data, the privacy information may be used by unruly elements who will spread the fraudulent news. So, it needs to protect the privacy before releasing network data. Under the edge differently privacy rule (i.e., protect the edges not be detected), this project will develop statistical releasing methods for network data; according to the released data, propose the privacy estimators for the model parameters in the weighted Beta model, the Beta model with covariates and stochastic block models and so on, and establish the consistency of the estimators and its asymptotic distributions.
网络数据正越来越多地被收集于社会学,流行病学等研究领域中。这些网络数据可能包含个体之间的敏感关系信息(例如,在社交网络中,表示个体间的亲密程度的关系信息)。为了让更多的科研工作者参与研究及更好地获取有价值的信息,数据持有者需要将包含有隐私信息的网络数据向公众发布。如果直接释放这些数据,用户的隐私信息可能被不法分子所利用,用以传播虚假的消息等。因此,在释放网络数据前,需要对其进行隐私保护。在边差异私有化准则下(即保护网络的边不被侦查出),本项目将发展网络数据的统计释放方法;根据释放后的数据,提出在加权的和带协变量信息的Beta网络模型,随机分组等网络模型中关于模型参数的私有化估计量,并建立私有化估计量的相合性和获得它们的渐近分布。
在过去的十几年里,许多社交网站积累了大量的网络数据。这些网络数据可能涉及到个人的隐私信息。为了让更多的科研工作者参与研究及更好地获取有价值的信息,含有隐私信息的网络数据需要向公众发布。如果直接释放这些数据,用户的隐私信息可能被不法分子利用。因此,在释放网络数据前,需要对其进行隐私保护。网络数据的隐私保护问题研究是当前网络数据分析的热点内容。在国家自然科学基金面上项目的大力资助下,本项目硕果累累!受资助期间(2018/01-2021/12),共发表了标注国家自然科学基金项目11771171资助的SCIE论文8篇,其中有3篇发表于统计学顶尖期刊Journal of the American Statistical Association,1篇发表在统计学著名期刊Statistica Sinica上。本项目在网络模型的边差分隐私统计推断方面取得了丰富成果,例如:(1)在关于有向图的p0模型中,我们提出了双度序列满足边差分隐私的数据释放方法;基于释放的数据,提出了矩方法去估计p0模型中的未知参数;证明了私有化估计量的相合性和渐近正态分布;提出了有向图的Havel-Hakimi去燥算法,该算法直接输出去燥后的有向图,且该有向图的双度序列是在L1误差范数下的全局最优解。(2)在加权Beta模型中,我们证明了私有化估计量的相合性和渐近正态分布。(3)在有协变量情形的有向网络数据中,我们提出了带协变量的p0模型,证明了极大似然估计量的相合性和中心极限定理。(4)在随机分组模型中,我们从贝叶斯图谱角度提出了修正的贝叶斯模型选择准则去估计类个数,证明了模型选择的相合性;提出了具有接近线性阶条件的极大化残差检验方法检验模型的拟合优度。(5)我们得到了带协变量信息的Beta模型的边差分私有化数据释放机制,获得了关于模型参数的私有化估计量,证明了私有化估计量的相合性和渐近正态分布。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
粗颗粒土的静止土压力系数非线性分析与计算方法
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
面向隐私保护的数据挖掘方法研究
面向大数据的统计分布式计算及隐私保护的理论与方法
社交网络的差分隐私保护方法
时空轨迹数据挖掘及其隐私保护方法研究