高维数据变量间非线性交互作用的研究

基本信息
批准号:11571009
项目类别:面上项目
资助金额:50.00
负责人:张灏
学科分类:
依托单位:太原理工大学
批准年份:2015
结题年份:2019
起止时间:2016-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:侯红卫,景英川,李东喜,李建东,杜宗宴,罗丹,寇磊
关键词:
变量选择模型选择LASSO方法惩罚函数
结项摘要

In high dimensional data, many variables interact with each other, and they jointly determine the structure of a graphical network or influence the response variable in regression problems. The problem of interaction selection is extremely challenging for high and ultra-high dimensional data. Since the number of main effects and interaction effects is much larger than the sample size, making computation expensive or even infeasible and making inferences difficult. Most of existing high dimensional methods and machine learning data techniques model interaction effects using simple linear or parametric models, or consider main effects only while ignoring interactions. However, in many real-world problems, interactions between the variables are complex and nonlinear. For example, in gene regularization networks (GRNs), gene-gene interactions are nonlinear dynamic systems. Also, it is well known that cancer risk is determined by a complex interplay of genetic and environmental factors, but gene-environmental interactions are complex and hard to be fully characterized by simple parametric models. The objectives of this research project are to propose flexible and nonparametric methods and statistical learning techniques to identify nonlinear interactions in high dimensional data, develop efficient and feasible computational algorithms, and study statistical properties of new estimators. Extensive numerical analysis will also be carried out to evaluate their empirical performance under various simulated settings and real applications. The proposed new methods are built up classical smoothing spline function estimation theory, take advantage of modern optimization algorithms for high dimensional sparse data analysis, and have four advantages: flexible, highly interpretable, feasible computation, wide applications. New methodologies and tools resulted from this research will fill the gap in the literature.

在高维大数据分析中,如何有效的判定并估计变量间非线性交互作用是一个基础难题。高维数据中变量数目远远大于样本量,因而给变量间交互作用的建模和计算造成很大困难。现有的高维统计和机器学习方法通常用简单线性或参数模型来描述交互作用,或者只考虑变量的主效应而忽略交叉效应。然而,现实问题中变量间往往存在复杂非线性交互关系。例如,基因调控网络中,基因和基因间的相互作用通常遵循非线性动态系统。又比如癌症的发生是由基因遗传和环境因素共同作用的结果,而基因和环境的交互作用很难用一个简单的参数模型来准确描述。本项目旨在开创新的非参数统计和数据挖掘方法来识别筛选高维回归模型中性变量间的非线性交互作用,提出快捷有效的算法,并研究新估计量的统计特性。提出的研究思想以经典平滑样条函数估计理论为基础,结合现代对高维稀疏数据处理的优化算法,具有灵活易懂、计算可行性强、广泛应用前景等优势。研究的成果将填补国内外该领域的空白。

项目摘要

本项目研究内容涵盖高维复杂数据的统计建模分析以及统计推断中的一系列问题, 包括高维线性和非参数模型中的变量选择问题、交互作用选择问题、以及复杂类型的数据挖掘和分析推断问题。复杂类型数据包括离散型数据、函数型数据、以及带有删失的生存数据。项目团队在这些领域中进行系统的研究并在多个方向上取得一些重要进展。主要研究成果包括:提出崭新的统计方法和理论、提出有效稳定以及快速算法、发展了R软件包 设计实验检验新方法优越性和预测效果,并把新方法用于实际数据分析中。最具有突破性的工作之一是为高维模型中交互作用在强遗传条件约束下的选择问题提出的新方法,兼有优越的理论和计算性质:大样本下具备变量以及交互作用的择选择相合性,同时可以快速计算变量及其交互作用的全路径。这项工作正在被推广到更复杂的模型包括非线性模型、广义线性模型。该成果已经发表在国际顶尖统计杂志,属于该领域的前沿工作,对高维统计研究有潜在的推动作用,还有广泛的应用前景,例如基因调控网络中选择基因和基因之间的相互作用、以及基因和环境因素的交互作用的选择。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

拥堵路网交通流均衡分配模型

拥堵路网交通流均衡分配模型

DOI:10.11918/j.issn.0367-6234.201804030
发表时间:2019
5

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019

张灏的其他基金

批准号:20576047
批准年份:2005
资助金额:8.00
项目类别:面上项目
批准号:30973508
批准年份:2009
资助金额:30.00
项目类别:面上项目
批准号:81572876
批准年份:2015
资助金额:57.00
项目类别:面上项目
批准号:31771953
批准年份:2017
资助金额:60.00
项目类别:面上项目
批准号:31171636
批准年份:2011
资助金额:60.00
项目类别:面上项目
批准号:81501027
批准年份:2015
资助金额:17.50
项目类别:青年科学基金项目
批准号:81071736
批准年份:2010
资助金额:32.00
项目类别:面上项目
批准号:81773087
批准年份:2017
资助金额:59.00
项目类别:面上项目
批准号:81400893
批准年份:2014
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

高维遗传数据变量间交互作用的统计推断方法研究

批准号:11771072
批准年份:2017
负责人:朱文圣
学科分类:A0402
资助金额:48.00
项目类别:面上项目
2

稳健变量选择与高维数据分析

批准号:11071022
批准年份:2010
负责人:崔恒建
学科分类:A0403
资助金额:30.00
项目类别:面上项目
3

基于概率生成模型的高维数据变量选择

批准号:11671317
批准年份:2016
负责人:张春霞
学科分类:A0602
资助金额:48.00
项目类别:面上项目
4

高维纵向数据的若干稳健变量选择方法研究

批准号:11401383
批准年份:2014
负责人:樊亚莉
学科分类:A0402
资助金额:22.00
项目类别:青年科学基金项目