基于概率生成模型的高维数据变量选择

基本信息
批准号:11671317
项目类别:面上项目
资助金额:48.00
负责人:张春霞
学科分类:
依托单位:西安交通大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:刘军民,李体政,胡俊英,宋增杰,杜芳,王慧敏,李俊丽
关键词:
变量选择概率生成模型深度学习高维数据贝叶斯学习
结项摘要

Variable selection has become one of the core issues in high-dimensional data analysis and modeling. The key idea of variable selection is to implement dimension reduction so that the inference accuracy and the generalization ability of a model can be improved, and the interpretability of the model can also be enhanced. Inspired by the active selective attention in biological cognitive processes and probabilistic generative models in machine learning, this project aims to study variable selection methods by using a probabilistic generative model to randomly generate input data from output data. Specifically, we will develop some efficient learning algorithms for probabilistic generative models containing different types of input data. We will also investigate some probabilistic generative models whose forward and backward connections are asymmetrical. To properly evaluate the relative importance of input variables, some new quantitative indices based on reconstruction error will be devised. In the meantime, an automatic partitioning criterion will be provided to separate important variables from redundant variables. For the proposed algorithms, we will perform their both theoretical and experimental analysis. As a result, the research of this project will provide some accurate, efficient and robust solutions to the variable selection problems associated with high-dimensional data containing high-correlated input variables and large amount of noise in real applications. The results obtained by our preliminary experiments have showed that the research of this project is very promising to provide an efficient variable subset selection method for analyzing high-dimensional data. Moreover, the formulated algorithms are expected to provide novel insights to cope with some real-world problems encountered in the areas of natural science and national economy.

变量选择已成为高维数据分析和建模中的核心问题之一,其主要想法是通过维数约减以提高模型的推断精度和泛化能力,并增强模型的可解释性。受生物认知过程中的主动选择性机制和机器学习领域中的概率生成模型的启发,本项目试图在概率生成模型框架下,以由输出反向随机生成输入数据为出发点,研究高维数据下的变量选择方法,主要包括:(1).对包含不同类型输入变量以及前后向连接不对称的概率生成模型,设计高效的学习算法;(2).对输入变量的相对重要性,基于重构误差给出合理的量化评价指标,为重要变量和冗余变量子集的划分提供自动确定准则;(3).完成所设计算法的理论分析和试验验证,最终为实际应用中的高维、高相关、高噪声情形下的变量选择问题提供准确、高效且稳健的解决办法。我们初期进行的大量数值试验结果表明,本研究可望为高维数据分析提供一个高效的全子集变量选择方法,也将为解决自然科学和国民经济各领域中的同类问题提供新思路。

项目摘要

变量选择是高维数据分析与建模中的核心问题之一,其主要思想是通过维数约减来提高模型的推断精度和泛化能力,并增强模型的可解释性。本项目探索了前后向连接不对称性的网络结构对其性能的影响,在概率生成模型框架下,研究了高维数据下的变量选择方法。项目所取得的成果主要集中在深度生成网络结构的设计、深度概率生成模型的高效学习、相关模型在高维数据的变量选择及实际问题中的应用方面,相关代表性成果简单介绍如下。..在深度概率生成模型的结构设计方面,提出了快速推断预测编码深度模型,高效解决了有监督的图像分类问题。提出了一种改进的Helmholtz机模型,为输入数据学习到了更好的表示。提出了一种高效的基于极端学习机的多模态数据融合表示学习框架,保证了模型的分类精度和效率。..在深度学习模型的高效学习方面,提出了深度信念网的分布式并行学习算法,在保证预测精度的同时,大大提高了计算速度。提出了一种基于流形正则化的广义极端学习机自编码模型GELM-AE,并堆栈了多层深度学习模型,在保证计算效率的同时,提取到了更抽象的特征。..在高维数据的变量选择方面,提出了基于排序策略修剪变量选择集成的新方法,有效提高了现有变量选择集成选中重要变量的准确性。针对高维的logistic回归模型,提出了一种新的基于变分Bayes原理的变量选择方法。针对部分线性变系数空间自回归模型的变量选择问题,提出了惩罚轮廓最小二乘法,同时实现了参数部分中重要变量的识别和非参数回归部分的估计。..在相关模型的实际应用方面,提出了一个Bayes深度矩阵分解网络,达到了更好的图像去噪效果。在可见光与红外图像的融合方面,我们分别提出了基于自编码网络、分层Bayes 模型的融合算法。针对复杂网络的重构,分层Bayes建模框架下,采用变分法对(超)参数进行推断,达到了更好的重构精度和效率。..本项目共发表SCI论文38篇,申请专利1项,培养硕士研究生8名。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
5

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016

张春霞的其他基金

批准号:71173039
批准年份:2011
资助金额:42.00
项目类别:面上项目
批准号:70773020
批准年份:2007
资助金额:20.00
项目类别:面上项目
批准号:11326061
批准年份:2013
资助金额:3.00
项目类别:数学天元基金项目
批准号:31500543
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:61672098
批准年份:2016
资助金额:16.00
项目类别:面上项目
批准号:60705022
批准年份:2007
资助金额:19.00
项目类别:青年科学基金项目
批准号:70473014
批准年份:2004
资助金额:14.00
项目类别:面上项目
批准号:11201367
批准年份:2012
资助金额:22.00
项目类别:青年科学基金项目
批准号:51234003
批准年份:2012
资助金额:300.00
项目类别:重点项目
批准号:30070611
批准年份:2000
资助金额:16.00
项目类别:面上项目
批准号:50074026
批准年份:2000
资助金额:18.00
项目类别:面上项目
批准号:11401475
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目
批准号:61272361
批准年份:2012
资助金额:80.00
项目类别:面上项目
批准号:41172159
批准年份:2011
资助金额:80.00
项目类别:面上项目
批准号:11126277
批准年份:2011
资助金额:3.00
项目类别:数学天元基金项目
批准号:40804014
批准年份:2008
资助金额:20.00
项目类别:青年科学基金项目

相似国自然基金

1

基于高维纵向数据边际模型的变量选择及理论研究

批准号:11871390
批准年份:2018
负责人:付利亚
学科分类:A0402
资助金额:52.00
项目类别:面上项目
2

稳健变量选择与高维数据分析

批准号:11071022
批准年份:2010
负责人:崔恒建
学科分类:A0403
资助金额:30.00
项目类别:面上项目
3

基于分位数回归的高维数据降维及变量选择研究

批准号:11401561
批准年份:2014
负责人:张庆昭
学科分类:A0403
资助金额:22.00
项目类别:青年科学基金项目
4

基于惩罚似然的变量选择方法及其在高维数据模型中的应用

批准号:71803001
批准年份:2018
负责人:朱艳玲
学科分类:G0301
资助金额:17.00
项目类别:青年科学基金项目