含有相关或内生协变量的超高维模型的特征筛选

基本信息
批准号:11601283
项目类别:青年科学基金项目
资助金额:18.00
负责人:胡琴琴
学科分类:
依托单位:山东大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:李锋,王康宁,王文武
关键词:
半参数模型特征筛选内生性大数据相关性
结项摘要

Existing feature screening and variable selection always are based on weak correlation and exogenous assumptions. However, strong correlation and endogeneity are two important features for urltra-high dimensional data in the era of Big Data. Although there has been many exciting developments on feature screening for ultra-high dimensional model, they are challenging due to strong correlation among predictor and endogeneity. Although the iterative version of some marginal screening procedures can alleviate the issue of high correlation among variables, the iterative algorithms are of computational redundance. Due to high dimensionality, ultra-high dimensional data which are collected in many areas are strongly correlated and endogenous.The features are ignored by most feature screening, which may lead to wrong statistical inferences.. Our research project focuses on feature screening for the ultra-high dimensional model without weak correlation and exogenous assumptions, which includes: 1. Propose novel and simple feature screening procedures for ultra-high dimensional semi-parametric models and heteroscedastic models with strong correlated variable, and get the statistical property of the proposed procedure. 2. Construct a convenient device for feature screening in ultra-high dimensional parametric models when there exist endogenous variables. . The research project is conducted to further develop theory and application of feature screening for ultra-high dimensional model, and promote development of big data analysis.

协变量弱相关和外生性通常是现有的特征筛选和变量选择方法的基本假设,而协变量相关和内生却是大数据时代中(超)高维数据重要且不可忽略的两个特性。虽然特征筛选已有较多研究成果和方法,但是含有强相关协变量或内生协变量的超高维模型的特征筛选还很少有研究成果和方法。即便一些筛选方法的迭代版能在一定程度上减弱协变量相关性的影响,但也因迭代而导致计算冗余和算法不够稳定。在众多应用领域,因维数高,所涉及的超高维数据均具有强相关性或内生性,忽视这些特性的特征筛选方法必将导致错误的统计推断。.本项目将研究含有相关或内生协变量的超高维模型的特征筛选,主要内容有:1.研究协变量之间存在强相关性时,异(同)方差超高维参数和半参数回归模型的特征筛选方法及其相关统计性质;2.研究含有内生协变量的超高维参数回归模型的特征筛选方法。.本项目将进一步丰富和完善超高维模型的特征筛选方法理论和应用,促进众多领域中大数据分析的发展。

项目摘要

随着科学技术的发展,我们进入了“大数据时代”。大数据给现代社会提供了新的机会,也给现代数据分析带来了新的挑战。协变量强相关和内生性是大数据时代中(超)高维数据中重要且不可忽略的两个特性,但是现有的特征筛选方法往往不考虑这两个特性。在国家自然基金青年科学基金项目的资助下,完成了以下问题的研究。1. 异方差超高维数据具有多指标结构时在协变量强相关下的特征筛选问题。根据事先获得的一些响应变量的信息,例如确定一些与响应变量相关的活跃预测变量,结合经验似然方法,我们提出条件特征筛选方法,得到均值函数和方差函数的活跃预测变量集合的相合估计。值得注意的是,新提出的特征筛选方法避免了均值函数和方差函数中未知的 link 函数的非参估计,而且,对于强相关的预测变量,我们的条件特征筛选方法仍然表现出色。2.含有内生协变量的超高维线性回归模型的特征筛选问题。首先利用工具变量和原问题中的响应变量做回归得到预测,通过排序协变量与上一步得到的预测的边际相关性,筛选得到重要变量。提出的二步筛选方法不受工具变量个数的约束,且避免了内生变量对筛选的影响。3.多元响应变量超高维线性模型的特征筛选问题。利用向量版经验似然方法,综合多维响应变量之间的关系提出MRELS和CMRELS筛选方法,提高筛选效率以及减弱协变量强相关性对隐藏型重要变量选入的影响。4.高维回归模型的变量选择。线性约束广义Lasso拟合的几何结构和自由度。在设计矩阵秩退化时,刻画线性约束广义Lasso(lcg-lasso)拟合的几何结构并证明其唯一性;研究lcg-lasso的自由度,利用其自由度公式,应用信息准则,大大降低高维数据变量选择时选择调和参数的计算量。另外,还考虑协变量调整型高维线性回归模型和空间半变化参数模型的变量选择问题。到目前为止,项目组已发表SCI检索期刊论文共4篇,还有多篇文章在投。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
4

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

胡琴琴的其他基金

相似国自然基金

1

生存分析中变系数模型的超高维协变量的筛选研究

批准号:11401443
批准年份:2014
负责人:邓世容
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
2

超高维数据的变量筛选方法

批准号:11371236
批准年份:2013
负责人:朱利平
学科分类:A0402
资助金额:55.00
项目类别:面上项目
3

高维协变量下部分线性风险回归模型的变量选择

批准号:11201349
批准年份:2012
负责人:陈玉蓉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
4

超高维病例队列数据的联合变量筛选研究

批准号:11801567
批准年份:2018
负责人:刘祎
学科分类:A0403
资助金额:25.00
项目类别:青年科学基金项目