Missing data exist in many research areas, such as clinical trials, epidemiology, population census and so on. In many applications, however, the missing data are nonignorable, i.e., the propensity depends not only on observed data but also on unobserved data. Identifiability and estimation of parameters with nonignorable missing data are challenging problems in statistical theory and applications. In this project, by utilizing an instrumental variable, we study some topics and related applications with nonignorable missing data. First, we investigate instrument search, propensity model selection and model averaging. Second, variable selection, sufficient dimension reduction, multiple imputation based estimating equations, bias-corrected empirical likelihood, robust and smoothed empirical likelihood, and quantile regression methods are proposed. The asymptotic properties of the proposed estimators are studied. Third, in order to analyse five types of complex data with nonignorable missing values, including ultrahigh dimensional data, causal data, functional data, categorical data and survival data, some new methodologies and asymptotic properties are developed. Finally, we establish the quickest change detection methods and control charts with regard to nonignorable missing data, and their properties are investigated.
不可忽略缺失数据是指缺失机制与缺失数据本身有关的数据,该类数据广泛存在于临床试验、流行病学、人口普查、民意测验等各个领域,是当今统计研究的热点和难点问题。参数是否可识别是不可忽略缺失数据研究的核心问题,也是目前尚未完全解决的重要问题。本项目以工具变量作为突破口,系统地研究不可忽略缺失数据的相关方法、理论与应用,主要包括:(一)完善工具变量方法和理论研究,建立缺失模型选择和模型平均方法;(二)创建变量选择、充分降维、多重插补、偏差修正、稳健光滑、分位数回归等统计模型和方法;(三)探究带有不可忽略缺失的超高维数据、因果推断数据、函数型数据、分类数据、生存分析数据的统计推断方法和理论;(四)在不可忽略缺失数据下研究快速变点检测和控制图的应用。本项目将现代统计研究的思想和方法融合到不可忽略缺失数据领域,从深度和广度上拓展现有的统计方法和理论,开创若干新的研究方向。
本项目完善了不可忽略缺失数据工具变量方法及性质研究,拓展了现有的不可忽略缺失数据统计模型和方法,研究了带有不可忽略缺失复杂数据的统计推断方法和理论性质。受本项目的支持,我们共发表或接收同行审阅的论文44篇(其中SCI论文42篇),包括Journal of the Royal Statistical Society Series B (1篇),Journal of Econometrics(1篇)、SCIENCE CHINA Mathematics(1篇)、Bernoulli(1篇)、Statistica Sinica(3篇)、Scandinavian Journal of Statistics(1篇)、Statistics in Medicine(2篇)、Computational Statistics and Data Analysis(3篇)等。主持人完成1项天津市自然科学基金项目,成功申请到1项国家自然科学基金面上项目,担任国际统计学SCI期刊《Journal of Nonparametric Statistics》的Associate Editor、泛华统计学会永久会员、中国现场统计研究会生存分析分会副秘书长、中国现场统计研究会因果推断分会常务理事、中国现场统计研究会生物统计分会理事、全国工业统计学教学研究会青年统计学家协会理事等,先后受邀于牛津大学、香港城市大学、中国人民大学、上海交通大学、厦门大学、西安交通大学、大连理工大学等单位参加学术会议或作学术报告20余次。本项目提出的方法已实际应用于北京市大气污染数据、共享单车数据、天津市居民用电量数据、美国威斯康辛大学医疗费用数据、美国NGHS(Nation Growth, Lung and Health Study)等多个与国民生活和生产息息相关的研究领域中。
{{i.achievement_title}}
数据更新时间:2023-05-31
一种基于多层设计空间缩减策略的近似高维优化方法
复杂系统科学研究进展
基于LS-SVM香梨可溶性糖的近红外光谱快速检测
基于MCPF算法的列车组合定位应用研究
智能煤矿建设路线与工程实践
基于“血热理论”探讨清热凉血方调控CD155/TIGIT信号通路抑制T细胞免疫治疗银屑病的分子机制
不可忽略缺失数据的工具变量方法研究
不可忽略缺失数据分位数回归模型和变量选择方法及其应用
不可忽略缺失数据模型的统计推断方法研究
带类别数据、异构数据及不可忽略缺失值的结构方程模型分析