半参数统计模型的分布式估计及其推断

基本信息
批准号:11871277
项目类别:面上项目
资助金额:52.00
负责人:吕绍高
学科分类:
依托单位:南京审计大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:王军辉,冯云龙,王江艳,吴鸿超,向静
关键词:
高维推断复合分位数回归部分线性模型半参数回归模型
结项摘要

The standard way to handle big data is to assign it randomly to many machines or nodes and then fuse each of their individual estimates to calculate the overall parameters of interest. The first part of this project is to study the distributed estimation and inference of the high-dimensional partial linear regression model. To this end, we consider the least squares estimate with a double penalty term, and all the independent estimates generated by the penalized method are averaged into a global estimate. Compared with purely linear models or completely non-parametric models, the study of sparse partial linear models under distributed learning has to face additional challenges, for example the double penalty terms will lead to the estimation bias of parameter coefficients or non-parametric components, and then seriously affect the performance of the overall estimated effect. For this reason, we propose distributed estimations for reducing the bias for linear coefficients and non-parametric components, respectively. Another research content of this project is related to the composite linear quantile model. Assuming that the underestimate coefficient is a smooth function of the quantile, we employ the global distribution information to propose a quantile-weighted estimate of the multi-task form. The coefficients corresponding to different quantile points are regarded as nodes of the network, and our local ADMM algorithm is formed by truncating these weights. The key consideration is the tradeoff between the communication costs of the algorithm and the validity of the estimates.

处理大数据的标准方法是将其随机分配诸多机器或节点,然后融合他们的每个单体估计来计算感兴趣的总体参数。本项目第一部分内容是研究高维偏线性回归模型的分布式估计及其推断问题。为此我们考虑了一个双重判罚项的最小二乘估计,由该方法生成的每个独立估计以独特方式平均形成一个全局估计。与纯线性模型或完全非参数模型相比,分布式学习下的稀疏部分线性模型研究必须面对额外的挑战,如双重惩罚项将导致参数系数或非参数分量的估计偏差,进而严重影响分布式总体估计的效果。为此我们分别对线性系数与非参数成分提出不同的降低偏差的分布式估计。本项目另一研究内容是涉及复合线性分位数模型的。假设待估系数是分位点的光滑函数,我们利用全局分布信息提出了多任务形式的分位数加权估计。把不同的分位点对应的系数看作网络的节点,通过截断权重方式形成我们的局部ADMM算法。重点考虑其算法的通信成本与估计的有效性之间权衡关系。

项目摘要

分布式策略是解决大数据分析问题的有效方式之一,其中最常用的分布式方法是分而治之策略,这种方法只是简单的汇总每个局部结果,来形成全局感兴趣的估计。然而分而治之策略只是用同质模型且对高维数据容易产生严重偏差。本项目的主要研究内容是提出若干有效的半参数模型的分布式算法,并且从统计理论与实证两个方面来验证我们方法的有效性。特别地,我们分别对线性系数与非参数成分提出不同的减少偏差的分布式估计。本项目另一研究内容是涉及复合线性分位数模型的。假设待估系数是分位点的光滑函数,我们利用全局分布信息提出了多任务形式的分位数加权估计。把不同的分位点对应的系数看作网络的节点,通过截断权重方式形成我们的局部ADMM算法。本项目的研究既有方法方面的创新,又有理论方面的深刻结果,是统计与机器学习大数据专题的丰富与发展,得到了国内外专家或同行的高度认可。代表性相关科研成果发表在统计学与计算机方面的国际顶级期刊上。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于分形L系统的水稻根系建模方法研究

基于分形L系统的水稻根系建模方法研究

DOI:10.13836/j.jjau.2020047
发表时间:2020
2

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016

吕绍高的其他基金

批准号:11226111
批准年份:2012
资助金额:3.00
项目类别:数学天元基金项目
批准号:11301421
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目

相似国自然基金

1

基于估计方程方法的若干半参数模型的统计推断

批准号:11101442
批准年份:2011
负责人:崔霞
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
2

参数与半参数模型下统计推断

批准号:18870488
批准年份:1988
负责人:吴传义
学科分类:A0403
资助金额:2.20
项目类别:面上项目
3

非参数与半参数混合模型的统计推断及应用

批准号:11371235
批准年份:2013
负责人:王绍立
学科分类:A0402
资助金额:62.00
项目类别:面上项目
4

超高维半参数回归模型的统计推断

批准号:11071077
批准年份:2010
负责人:朱利平
学科分类:A0402
资助金额:25.00
项目类别:面上项目