广义线性模型的组变量选择及其在信用评分中的应用

基本信息
批准号:71471152
项目类别:面上项目
资助金额:62.00
负责人:方匡南
学科分类:
依托单位:厦门大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:马双鸽,刘瑾,钟威,戴颖,张晶,王小燕,章贵军,欧阳汉,张声威
关键词:
变量选择广义线性模型信用评分统计学
结项摘要

In recent years, a mass of high dimensional data arises in the research fields such as management science, bioinformatics and others. The use of such data creates a big challenge for model selection. For some case, the inherent interconnection among covariates can be described with a grouping structure. In this case, individual variable selection methods, which omit the grouping structure information, may reduce the efficiency of variable selection, even lead to mis-selection. The main goal of this proposal is to systematically develop group variable selection for generalized linear regression, including concave q norm group selection methods, bi-level selection methods, Sparse Laplacian group selection methods. First, we propose new concave q norm group selection methods, which can identify important group covariates. Besides, we will give the algorithm and prove their consistency property. Moreover, we propose bi-level selection methods, which can identify not only important groups but also important covariates within selected groups, as well as give the computation solution and prove their oracle consistency property at both the group and within-group levels. Furthermore, we will propose Laplacian group selection methods, taking network structure among covariates into consideration; then we will extend the GCD algorithm for their computation and show that they have the oracle property under a sparse Rieze condition. Finally, we will apply these methods to credit scoring.

近年来,管理科学、生物信息等领域产生了大量的高维数据,为模型选择带来了更大的挑战,且在某些实际问题中,自变量间由于某种内在关系,存在着自然的分组结构,此时,使用单变量选择方法忽略了分组结构中隐含的信息,可能会降低变量选择的性能,甚至会误选变量。鉴于此,本项目主要系统地研究广义线性模型的组变量选择方法,包括凹q范数组变量选择法、双层变量选择法、稀疏拉普拉斯组变量选择法。首先,研究仅能选择组变量的方法,提出凹q范数组变量选择法,解决其算法问题及证明其一致性;接着,研究既能选择组变量又能选择组内变量的双层变量选择法,解决其算法问题及证明其在单个变量和群组变量层面的Oracle性质;然后,在考虑变量间的网络结构下,提出拉普拉斯组变量选择法,利用扩展的GCD算法解决其计算问题,证明其在稀疏的Rieze条件下的oracle性质。最后,研究这些方法在信用评分中的应用。

项目摘要

近年来,管理学、生物信息学等领域产生了大量的高维数据,高维数据有两个共同点:一是自变量个数 很大,甚至可能随着样本数 的增加而增长;二是噪声多,存在着许多跟因变量无关的自变量,即存在稀疏性质(sparsity)。高维模型的特殊性要求统计方法不仅能精准地提取有价值信息,而且效率要高、速度要快,这为传统的建模与推断带来一系列挑战。 此外,在某些实际问题中,自变量间由于某种内在的关系,呈现出自然的分组结构,此时,使用单变量选择方法忽略了分组结构中隐含的信息,可能会降低变量选择的性能,甚至会误选变量,因此就需要进行组变量选择研究。本项目主要研究广义线性模型的组变量选择方法及其在信用评分中的应用,比如提出了基于lasso-logistic模型的个人信用风险预警方法,提出了带有组结构信息的双层变量选择方法,提出了基于系数拉普拉斯(网络结构)Logistic模型的企业信用风险预警,提出了SGL-SVM方法及其在财务困境预测中的应用,基于多源数据融合的个人信用评分方法研究,提出了基于半监督广义可加Logistic回归的信用评分方法。通过这个项目的研究,取得了一定的成果,本项目共发表学术论文27篇(包含接收待刊),其中发表在Annals of Operation Research、Journal of Multivariate Analysis、Scientific reports等国际权威期刊上有16篇,发表在《管理科学学报》、《统计研究》、《中国管理科学》国内核心期刊上有11篇,其中被SCI/SSCI收录的论文有16篇。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

冲击电压下方形谐振环频率选择超材料蒙皮的沿面放电长度影响因素研究

冲击电压下方形谐振环频率选择超材料蒙皮的沿面放电长度影响因素研究

DOI:10.13334/j.0258-8013.pcsee.182347
发表时间:2019
3

“意愿-风险”模型下地方政府间合作倾向研究——以泛珠三角为例

“意愿-风险”模型下地方政府间合作倾向研究——以泛珠三角为例

DOI:
发表时间:2018
4

前件变量未知的T-S模糊系统输出反馈控制

前件变量未知的T-S模糊系统输出反馈控制

DOI:10.13195/j.kzyjc.2018.0134
发表时间:2019
5

人穷还是地穷?空间贫困陷阱的地统计学检验

人穷还是地穷?空间贫困陷阱的地统计学检验

DOI:10.11821/dlyj201810010
发表时间:2018

方匡南的其他基金

批准号:71201139
批准年份:2012
资助金额:19.00
项目类别:青年科学基金项目

相似国自然基金

1

缺失数据下广义线性模型的经验似然和变量选择问题

批准号:11201276
批准年份:2012
负责人:陈夏
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
2

基于Laplace Error惩罚函数的变量选择方法及其在全基因组关联分析中的应用

批准号:11001280
批准年份:2010
负责人:王学钦
学科分类:A0403
资助金额:17.00
项目类别:青年科学基金项目
3

个人信用评分模型设计

批准号:70141015
批准年份:2001
负责人:方兆本
学科分类:G01
资助金额:6.00
项目类别:专项基金项目
4

广义线性模型及其在右删失数据中的应用

批准号:10726046
批准年份:2007
负责人:丁洁丽
学科分类:A0403
资助金额:3.00
项目类别:数学天元基金项目