High-throughput variable selection studies have been extensively conducted, searching for accurate predicting model with interpretable covariates. It has been demonstrated that variable selection methodologies with the modeling of covariate association tend to have better performance on both the variable selection and the prediction. In this study, we propose a theoretical discussion on the structured variable selection methodology, including the formulation of structured penalization, the parameter estimation and its properties, the computational algorithms, and the inference issues. Three main topics are involved for the structured variable selection: the hierarchy restriction on the main effects and interactions, the integrative analysis with heterogeneity data, and the cost-effective methods for the imbalanced data. With each of the topic, the variable selection method will be discussed for the informed covariate association and the uninformed covariate association separately. Two applied case study will be discussed in the research on the "Risk Predicting for Listed Companies with Financial Indicators" and the "Risk Factor Selection for the Credit Predicting" with the proposed methodologies. Aiming to improve the scientific decision-making process, the achievement of this study is a set of structured variable selection methodologies for the research on prediction modeling in the economy, the sociology, the management and other fields of social science.
变量选择是近年来预测模型构建的研究热点。前期研究表明,在构建模型时纳入自变量间分组及关联结构信息可以改进变量选择的效果,提升预测的准确性。从现有研究成果看,鲜有针对结构化变量选择中自变量的主效应与交互效应分层结构问题,数据异质性问题和样本非平衡问题的讨论,需要探索其在改善变量选择效果、提高预测精度上的作用。本项目以经济管理领域的预测模型中结构化变量选择方法为研究对象,围绕展开研究。针对每个问题,本项目分别从"有先验信息的结构化变量选择"和"无先验信息的结构化变量选择"两个角度研究变量选择模型的构建方法、参数估计及性质、算法优化设计与有效性评价,并讨论其在企业财务风险预警分析和信用风险潜在危险因素筛选研究上的应用。通过本项目的研究,拟提供一套可以广泛应用于经济学、社会学、管理学等领域的结构化变量选择方法,帮助实证研究者提高量化预测精度,进而帮助有关宏观管理部门或微观经济单位提高科学决策。
本项目围绕自变量的主效应与交互效应分层结构问题,数据异质性问题和样本非平衡问题展开结构化变量选择研究,并在企业财务风险预警分析和信用风险潜在危险因素筛选等领域展开实证研究,为后续经济学、社会学、管理学等学科研究者提供参考。. 在主效应与交互效应分层结构问题方面,本项目在相关研究基础上针对含强分层约束的纵向数据变量选择展开方法与应用探讨。首先构建纵向数据的变量选择问题,进而构建考虑强分层假设的纵向数据变量选择模型。研究论文分别发表在“Statistics and Its Interface”和“统计研究”。. 在数据异质性问题方面,本项目针对加速失效模型讨论了整合惩罚分析的模型方法与理论性质,结果已被“Statistica Sinica”接收。另一方面,针对异质性数据的纵向成组变量选择问题展开讨论,结果投稿于“统计研究”,已通过二审。 . 在样本非平衡问题方面,本项目分别讨论代价敏感调整、加权正则化支持向量机、曲线下面积(AUC)回归等方法的构建与实证效果。研究结果发表于“Journal of Statistical Computation and Simulation”、“Quality and Reliability Engineering International”、“数理统计与管理”和“统计与信息论坛”。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
基于一维TiO2纳米管阵列薄膜的β伏特效应研究
论大数据环境对情报学发展的影响
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于含隐结构变量的结构化预测模型的中文语义解析研究
高维生存数据下交互模型的变量选择方法
基于模型集群分析技术的变量选择与模型评价新方法研究
关于若干半参数统计模型中的变量选择方法的研究