In areas such as Bioinformatics and Image Processing, how to use statistical machine learning method to select a right model is the premise and key of pattern classification. In traditional machine learning, model selection is always directly performed based on the estimation of performance measure index. However, these methods obviously do not take into account the variance of the estimation, and thus a wrong model may be selected. In particular, statistical significance test is introduced to select a better model by comparing the difference of the performances of two classification models in recent years. Although the variance information is added to the test method, it relies on the assumption of data distribution. And the computational cost is very large when performing the comparisons between any two models in multiple models, which is not suitable for direct use in the selection of multiple models. Based on the above analysis, we give a method of classification model selection based on variance regularization in a widely used cross validation framework. This study includes that (1) the exact and right variance estimation of the cross validated estimation of performance measure index is provided; (2) method of classification model selection integrating regularized variance is constructed based on the existing method of classification model selection with cross validation and the proposed variance estimation; (3) the superiority and feasibility are proved by theoretical and experimental analysis.
在生物信息, 图像处理等领域中, 如何利用统计机器学习方法选择一个合适的模型是进行模式分类的前提和关键. 传统的机器学习中往往直接基于性能度量指标的估计本身进行模型的选择, 但是这样的方法显然没有考虑估计的波动性从而有可能选择到错误的模型. 特别地, 近年来统计显著性检验方法被引入通过对照两个分类模型性能的差异来选择一个更优模型, 检验的方法虽然添加了方差信息但它依赖于数据的分布假定且进行多个模型中的两两模型对照时计算开销非常大, 不适合直接用于多个模型的选择. 基于上述分析, 我们考虑提供一个广泛使用的交叉验证框架下的方差正则化分类模型选择方法. 本项目的研究主要包括: (1)提供性能度量指标的交叉验证估计的准确合适的方差估计;(2)基于现有的交叉验证分类模型选择方法和提出的方差估计构造融合正则化方差的分类模型选择方法;(3)理论和实验分析证明它的优越性和可行性.
在机器学习的分类问题研究中,对于给定的某个性能度量指标如何选择一个合适的模型是进行学习的前提和关键,它在图像处理,自然语言处理等实际应用中都起着非常重要的作用。鉴于传统文献中的分类模型选择方法要么没有考虑估计的波动性,只基于性能度量指标的估计本身进行选择,要么虽然通过统计显著性检验引入了方差信息但不容易被广泛使用,我们提出了一种广泛使用的交叉验证框架下的方差正则化分类模型选择准则。本项目主要进行了以下内容的研究:.(1)理论上分析了基于交叉验证的准确率(p),召回率(r),F1值等性能度量指标的方差结构,构造了它们的精确置信区间;.(2)针对交叉验证中不好的数据划分将导致不好的统计推断结果的问题,提出了一个用于数据划分度量的统计量;.(3)通过考虑度量指标之间的相关性, 提出了一种基于自由度校正的5×2交叉验证F检验模型选择方法;.(4)基于M×2交叉验证的方差结构分析提出了一种基于块内样本协方差和块间样本协方差折中的保守方差估计方法;.(5)开展了简单线性模型情形下正则化参数的选择方法研究,提出了基于组块3×2交叉验证的正则化参数选择方法;.(6)理论上证明了构造的模型选择准则具有选择的一致性,模拟和真实数据实验验证了此模型选择准则相对于传统模型选择方法的优越性;.(7)进一步,把上述正则化模型选择的思想用于遥感云图像处理中图像分辨率的选择和自然语言处理中汉语框架语义角色的识别。.本项目的研究立足于学科的交叉,学科的关键问题,对于机器学习,模式识别,数据挖掘,统计学等相关领域的研究,以及众多的机器学习相关应用都具有现实意义和应用前景。
{{i.achievement_title}}
数据更新时间:2023-05-31
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向云工作流安全的任务调度方法
基于非凸正则化的高维协方差矩阵估计方法研究
基于时序InSAR协方差矩阵估计的城镇化场景分类方法研究
基于协方差矩阵自适应的分数阶微分流形正则化图像复原研究
稀疏正则化方法研究