In high-dimensional data analysis, one typically finds “best” model by using a variable selection procedure and make the final prediction and statistical estimation based on this model. However, variable selection procedures are uncertain on some level and this uncertainty may lead to unreliability of the statistical inference and instability of the prediction, i.e., a small change in data may cause large changes of predictive values. In this project, we will study the influence of uncertainty of variable selection procedure to the prediction and develop a more stable procedure based on the idea of model averaging. Based on multiple splits of the datasets, we will construct a candidate model set and a new dataset which is formed by the predictive values of the candidate models and the response of the original dataset. By minimizing the loss function for the new dataset, one could get the coefficient for each variable and these coefficients are the weights of candidate models. We will also study the asymptotical properties of the procedure, such as risk bound of the method. The proposed method will be scalable and efficient in reducing the uncertainty from the process of statistical modeling in high-dimensional data and make the results of high-dimensional data analysis more reliable.
在高维数据分析中,人们通常采用变量选择方法选择出“最好”的模型,然后依赖于该模型得到最终的预测或者统计推断。然而,变量选择过程有着不同程度的不确定性,这种不确定性会造成模型解释的不可靠性和预测的不稳定性(即,数据的微小变化可能使我们选择出差别很大的模型,进而得到的预测值也差别很大)。本项目研究高维数据下变量选择过程的不确定性对模型预测的影响程度,并通过模型平均方法提高模型的预测稳定性。我们拟采用多次拆分数据的方法,构造候选模型集合,并用每个候选模型的预测值和原数据的因变量构造一个新的数据。然后使用新数据,通过最优化损失函数得到每个候选模型的权重。在理论上,我们拟研究提出算法的风险有界性等渐近性质。本项目拟提出的算法具有很好的可拓展性,可以有效的减少高维数据统计建模过程中的不确定性,提高高维数据分析结果的可靠性。
本项目围绕回归模型的估计,检验,模型选择和模型选择的稳定性展开研究,历时一年,基本完成了预期的研究目标。首先,本项目研究了广义线性回归模型中模型选择的不确定性问题及提出了使用模型平均方法降低模型选择不确定的算法,提高了广义线性回归模型的预测能力和可解释性。其次,本项目还研究了部分线性模型和单指标模型的参数和相关函数的估计,模型检验,且给出了参数估计量和检验统计量的渐近性质,为研究一些非参数或者半参数模型的模型选择不确定性问题打下了基础。最后,本项目还把研究成果应用于智慧建筑的节能减排设计过程中不确定性的分析,提出了稳健可靠的算法对能耗相关的自变量进行排序,该方法可以帮助建筑设计人员找到需要改进的建筑参数,提高设计环保建筑的效率。这些研究不仅有理论意义,还具有实际的应用价值。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于LASSO-SVMR模型城市生活需水量的预测
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于分位回归的高维函数型可加模型研究
高维半参数回归模型中的若干检验问题
高维回归模型的大规模统计学习和推断
高维回归模型中的交互作用识别问题