In recent years, a mass of high dimensional data arises in the research fields such as management science, bioinformatics and others. The use of such data creates a big challenge for model selection. For some case, the inherent interconnection among covariates can be described with a grouping structure. In this case, individual variable selection methods, which omit the grouping structure information, may reduce the efficiency of variable selection, even lead to mis-selection. The main goal of this proposal is to systematically develop group variable selection for generalized linear regression, including concave q norm group selection methods, bi-level selection methods, Sparse Laplacian group selection methods. First, we propose new concave q norm group selection methods, which can identify important group covariates. Besides, we will give the algorithm and prove their consistency property. Moreover, we propose bi-level selection methods, which can identify not only important groups but also important covariates within selected groups, as well as give the computation solution and prove their oracle consistency property at both the group and within-group levels. Furthermore, we will propose Laplacian group selection methods, taking network structure among covariates into consideration; then we will extend the GCD algorithm for their computation and show that they have the oracle property under a sparse Rieze condition. Finally, we will apply these methods to credit scoring.
近年来,管理科学、生物信息等领域产生了大量的高维数据,为模型选择带来了更大的挑战,且在某些实际问题中,自变量间由于某种内在关系,存在着自然的分组结构,此时,使用单变量选择方法忽略了分组结构中隐含的信息,可能会降低变量选择的性能,甚至会误选变量。鉴于此,本项目主要系统地研究广义线性模型的组变量选择方法,包括凹q范数组变量选择法、双层变量选择法、稀疏拉普拉斯组变量选择法。首先,研究仅能选择组变量的方法,提出凹q范数组变量选择法,解决其算法问题及证明其一致性;接着,研究既能选择组变量又能选择组内变量的双层变量选择法,解决其算法问题及证明其在单个变量和群组变量层面的Oracle性质;然后,在考虑变量间的网络结构下,提出拉普拉斯组变量选择法,利用扩展的GCD算法解决其计算问题,证明其在稀疏的Rieze条件下的oracle性质。最后,研究这些方法在信用评分中的应用。
近年来,管理学、生物信息学等领域产生了大量的高维数据,高维数据有两个共同点:一是自变量个数 很大,甚至可能随着样本数 的增加而增长;二是噪声多,存在着许多跟因变量无关的自变量,即存在稀疏性质(sparsity)。高维模型的特殊性要求统计方法不仅能精准地提取有价值信息,而且效率要高、速度要快,这为传统的建模与推断带来一系列挑战。 此外,在某些实际问题中,自变量间由于某种内在的关系,呈现出自然的分组结构,此时,使用单变量选择方法忽略了分组结构中隐含的信息,可能会降低变量选择的性能,甚至会误选变量,因此就需要进行组变量选择研究。本项目主要研究广义线性模型的组变量选择方法及其在信用评分中的应用,比如提出了基于lasso-logistic模型的个人信用风险预警方法,提出了带有组结构信息的双层变量选择方法,提出了基于系数拉普拉斯(网络结构)Logistic模型的企业信用风险预警,提出了SGL-SVM方法及其在财务困境预测中的应用,基于多源数据融合的个人信用评分方法研究,提出了基于半监督广义可加Logistic回归的信用评分方法。通过这个项目的研究,取得了一定的成果,本项目共发表学术论文27篇(包含接收待刊),其中发表在Annals of Operation Research、Journal of Multivariate Analysis、Scientific reports等国际权威期刊上有16篇,发表在《管理科学学报》、《统计研究》、《中国管理科学》国内核心期刊上有11篇,其中被SCI/SSCI收录的论文有16篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
冲击电压下方形谐振环频率选择超材料蒙皮的沿面放电长度影响因素研究
“意愿-风险”模型下地方政府间合作倾向研究——以泛珠三角为例
前件变量未知的T-S模糊系统输出反馈控制
人穷还是地穷?空间贫困陷阱的地统计学检验
缺失数据下广义线性模型的经验似然和变量选择问题
基于Laplace Error惩罚函数的变量选择方法及其在全基因组关联分析中的应用
个人信用评分模型设计
广义线性模型及其在右删失数据中的应用