内生性下高维线性交互模型的变量选择

基本信息
批准号:11701058
项目类别:青年科学基金项目
资助金额:20.00
负责人:何雅维
学科分类:
依托单位:重庆交通大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:孔亚方
关键词:
变量选择高维内生惩罚似然法交互模型
结项摘要

In the era of big data, scientists are able to and tend to collect as many variables as possible. These variables are usually aggregated from multiple sources with potentially different data generating schemes. This increases the possibility selection bias and measurement errors. And it results in the correlation between variables and error terms, which is called endogeneity in economics. Most of high dimensional feature selection approaches are no longer valid because of the existence of endogeneity. This project will investigate variable selection approaches under the endogenous linear interactive model with high-dimensional data. The interactive model includes common main effect features as well as interactive effect features which cannot be ignored in practical problems. Due to the existence of endogeneity, the introduction of instrument variables becomes the first important step. And our feature selection procedures must be proposed in two stages. Firstly, our project will provide a new two stage penalized likelihood variable selection procedure under a linear model with main effects only. Secondly, this procedure will be extended to interactive models by treating main effects and interactive effects differently. Finally, a real data under the biomedical sciences will be provided and investigated.

大数据时代,科学家研究时常倾向于收集尽可能多变量,且这些高维变量通常是多个数据来源聚合。因而易增加测量错误及偏差等,导致变量和误差相关,经济学上称之为内生性。当内生性存在时,极大部分现有高维变量选择方法不再有效。本项目旨在内生性前提下,探讨高维线性交互回归模型的特征选择方法。交互模型既包含常见主效应变量,也包括实际问题中不可忽视的交互效应变量。深层次揭示内生性的影响,并引入适当的工具变量,是本项目的首要步骤。由于工具变量引入,变量选择方法不可避免地分为两阶段。本项目首先拟在只含主效应的回归模型下,提出一种新的二阶段惩罚似然变量选择法。其次针对主效应和交互效应变量作用及数量等巨大差异,拟将这两类变量作适当分类处理,从而将上述方法推广到高维交互模型。最后拟对推广二阶段惩罚似然变量选择法在生物医学领域的实际运用展开研究。

项目摘要

高维变量选择指从变量数远远大于样本容量的特征空间中,选取重要变量,剔除冗余变量,其为大数据时代信息提取的一种有效方式。与传统数据分析相比,高维特征选择不仅计算负担重,且易导致噪声积累,虚假相关及内生性。多种经典惩罚似然法在变量选择时考虑了前两者,却未考虑内生性。本项目展示了经典惩罚似然法在内生性存在时的不一致性;为了消除内生性影响,引入了工具变量,在解释变量的估计和估计值代入原模型进行特征选择这两阶段依据侧重点的不同选取不同惩罚函数,而提出了一个新的二阶段惩罚似然法TSPL并证明了其一致性;于之相关联的得到多素变量线性方程解数渐近公式;本项目亦研究癌症影响基因的筛选并于广义线性模型下以轮廓边缘得分函数为鉴定标准构造序贯特征选择算法SRA并进行理论证明与生物标志物筛选;研究了双向交互情形下不同种类效应特征的处理方式,采取主效应变量、交互效应变量先各选一个再抉择方式处理,并证明了对应模型选择准则渐近一致性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响

氟化铵对CoMoS /ZrO_2催化4-甲基酚加氢脱氧性能的影响

DOI:10.16606/j.cnki.issn0253-4320.2022.10.026
发表时间:2022
2

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
3

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016

何雅维的其他基金

相似国自然基金

1

高维生存数据下交互模型的变量选择方法

批准号:11901581
批准年份:2019
负责人:张婧
学科分类:A0403
资助金额:25.00
项目类别:青年科学基金项目
2

高维协变量下部分线性风险回归模型的变量选择

批准号:11201349
批准年份:2012
负责人:陈玉蓉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目
3

基于概率生成模型的高维数据变量选择

批准号:11671317
批准年份:2016
负责人:张春霞
学科分类:A0602
资助金额:48.00
项目类别:面上项目
4

缺失响应数据下高维稀疏分位数回归模型的变量选择

批准号:11601409
批准年份:2016
负责人:罗双华
学科分类:A0403
资助金额:19.00
项目类别:青年科学基金项目