Data with mixture distributions is commonly encountered in the field of management science, health economics and so on. A special example is zero-inflated data, where a high proportion of the responses take zero values, and the rest are from a certain distribution, such as overdue loans, short-term medical expenditure. It is crucial to make use of the excessive zeros in the analysis. Two-part model is very popular because it assumes that the data is generated from two processes, which can fully catch the zero information, but also highlight the importance of the non-zero part. Combined with the common data features of high dimension, grouping structure of covariates and sample heterogeneity, this proposal focuses on variable selection for two-part model. Firstly, according to worse robustness and high dimension of the proportional two-part model, the individual variable selection based on U-statistic will be established, and large sample properties will be discussed. Secondly, according to the grouping structure of covariates, a grouping-covariate two-part model will be proposed, in which bi-level variable selection will be established to explain the grouping information, and the large sample properties within group and between groups will be discussed. Thirdly, for heterogeneous sample, a multiple two-part model will be proposed, in which bi-level variable selection will be used to explore the difference and association among significant variables from various models, and then theoretic properties will be proved. Finally, the models will be applied to study loan default risk problems.
在管理科学、卫生经济学等领域,常存在混合分布数据,其中有一类非常特殊,叫零膨胀数据,它的零所占比重非常大,非零值来自某一分布,比如贷款逾期天数、短期医疗支出。如何利用好大量零是分析这类数据的关键,两部模型视数据来自两个过程,既能充分挖掘零的信息,又能突出非零部分的重要性,因而备受欢迎。本项目结合现实中常见的高维性、解释变量分组、样本异构等三个数据特征,将重点研究两部模型的变量选择。首先针对比例两部模型稳健性差及维数困扰,拟建立U统计量下的单变量选择,并证明大样本性质。其次针对变量分组结构,拟提出群组解释变量两部模型,建立双层变量选择以充分考虑分组信息,证明组内和组层面的大样本性质。再针对样本异构性,拟提出多因变量两部模型,用双层变量选择研究各模型显著变量的异同,并证明理论性质。最后,研究这些模型在贷款违约风险中的应用。
如何防患并管理好信用风险对银行的发展和贷款市场的有序进行极其重要。贷款违约天数作为能够体现违约风险的一个重要变量,具有显著的零膨胀特征,即存在大量不违约的样本单位,这使得传统的模型无法体现零样本的有效信息,从而导致建模的失败。两部模型作为处理零膨胀数据的代表,包含了两个方程,第一个方程为典型的二分类问题,第二个方程描述非零因变量取值的过程,通常有线性回归或者poisson回归等。本项目采取理论和应用相结合的方式,主要研究了以下内容:.(1)稳健模型变量选择及其违约风险应用,以分位数回归作为稳健模型的代表,用它来构建两部模型的第二个方程,并结合Lasso方法对两个方程分布进行风险因素识别;(2)构建了比例两部模型的变量选择方法,假定两部模型两个方程的回归系数具有比例结构,通过对比例剩余系数进行惩罚压缩,以及对第一个方程的系数进行惩罚压缩,实现比例结构和风险因素的同步识别;(3)多因变量的变量选择方法及其应用,重点研究两部模型的第一个方程,以LDA方法为例进行了多因变量的整合分析,分析各个方程之间的差异和同质性;(4)针对两部模型的第一个方程,提出了基于文本先验信息的变量选择方法,从现有研究中挖掘文本信息用于改进风险因素的识别效果,提高对违约群体的预测准确率;(5)针对两部模型的第一个方程,利用群组变量选择方法,在考虑指标组结构的情况下,建立违约风险评估模型。. 通过模拟分析和实证分析发现,所提出的一系列新模型在风险指标选择和分类预测效果上都优于所对比的传统模型,例如在内容(1)中,当数据表现出拖尾性质时,稳健模型会有更低的预测错误率和估计偏差,又如在内容(2)中,新模型在未增加复杂度和计算量的情况下,比传统的逐步法两部模型和忽略零膨胀特征的模型具有更好的预测表现。本研究也得到了一些具有应用价值的结论,在风险管理方面可为相关部门提供一定的参考。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
中国参与全球价值链的环境效应分析
基于违约风险金字塔原理的小企业贷款定价模型
高维单调转移模型的变量选择及其在违约风险评估中的应用
贷款组合风险优化决策模型的研究
基于半参数零膨胀时空回归模型研究流感季节性区域传播风险