In biometric recognition technology, biological data often have high dimensionality, such as large gene expression data and facial image data. The statistical analysis and dimention reduction on the data is a key technology in biometric recognition, and also is the international advanced research. It is difficult to identify the rules of how to find the low dimentional structure for specific practical problems by using the existing methods of dimensionality reduction. On the basis of our previous two work of the gene information extraction by the entropy-based interaction information gain and the dimensional reduction technique in facial recognition with small sample BOOTSTRAP PCA, this project aims to systematically study the advanced statistical methods and algorithms for high dimentionality reduction in biometric recognition. They are: robust dimensional reduction and the corresponding algorithms for linear biological data with abnormal ones; robust dimensional reduction and the corresponding algorithms for nonlinear biological data based on kernel estimation; statistical dimensionality reduction and the corresponding algorithms for fuzzy biometric data; fuzzy kernel principal component analysis and fuzzy kernel discriminant analysis methods for dimensionality reduction and the corresponding algorithms; and the statistical inference methods for evaluating various dimensionality reduction algorithms in biometric recognition. We expect to successfully get the new algorithms which can not only handle a variety of complex high dimensional data systematically, but also further improve the robustness of the dimensional reduction algorithms and the recognition rates in biometric recognition.
在生物特征识别中,生物数据的维数往往非常之高,例如庞大的基因表达数据和人脸图像数据,这类数据的统计分析和降维是生物特征识别的关键技术,也是当前高维数据研究的国际前沿课题,现有降维方法的一个难点是不能针对具体的实际问题确定寻找低维结构的准则。在我们前期工作基于基因信息提取的交互熵信息收益方法以及基于人脸识别的小样本BOOTSTRAP PCA降维技术的基础上,本项目拟系统研究生物特征识别这一实际问题中高维数据降维的前沿统计方法和算法:带异常干扰线性生物数据的稳健降维及算法;非线性生物数据的基于核估计的稳健降维及算法;模糊生物特征数据的统计降维及算法;核模糊主成分分析和核模糊判别分析的降维及算法;以及生物特征识别中,评价各种统计降维算法的性能的统计推断方法。预期得到在生物特征识别中可处理各种复杂高维数据的较系统的新算法,进一步提高降维算法的稳健性和识别率。
本项目系统研究了生物特征识别这一实际问题中高维数据降维的前沿统计方法和算法,具体包括:(1)带异常干扰线性生物数据的稳健降维及算法。使用协方差矩阵的多种稳健估计,例如最小协方差行列式估计(MCD)方法改进PCA、LDA数据降维方法;使用基于异常点度量的多种重构误差方法;使用基于熵信息的高维小样本数据处理方法以增强算法的稳健性。(2)非线性生物数据的基于核估计的稳健降维及算法。研究出稳健核估计下的KPCA及KDA算法、根据不同的非线性生物数据进行核函数的选择和组合、针对噪声图像数据提出基于镜像奇偶图像特征组合的改进KPCA方法、针对小样本数据提出基于组合增加虚拟样本的KPCA生物特征识别方法、针对含冗余的图像数据提出基于改进伪特征值选点的KPCA算法等。(3)模糊生物特征数据的统计降维及算法。研究模糊隶属度的基于多种距离的学习方法和高效迭带算法。用模糊协方差矩阵代替传统的协方差矩阵,研究高维数据中模糊协方差矩阵的特征分解方法。使用Bootstrap,并使用伪逆、奇异值分解和QR分解以克服奇异问题,减少矩阵变换中的计算复杂度。(4)在上述(2)和(3)的研究基础上,研究基于核变换的模糊非线性算法:核模糊主成分分析(KFPCA)和核模糊判别分析(KFDA)。(5)针对各种判别分类的统计降维算法,研究了评价其识别性能的有关参数的估计和检验方法。并应用这些估计的参数评价上述所讨论的各种降维算法。.项目研究达到预期要求,得到在生物特征识别中可处理各种复杂高维数据的较系统的新算法,进一步提高了降维算法的稳健性和识别率;在生物统计、统计计算、统计学习等方向正式发表标注基金的学术论文26篇,其中SCI收录3篇、EI收录17 篇、其他核心6篇,培养硕士研究生毕业并获硕士学位14名。完成任务书要求的研究内容和指标。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
宁南山区植被恢复模式对土壤主要酶活性、微生物多样性及土壤养分的影响
回归中高维数据的“充分”降维
超高维复杂数据统计降维研究
复杂疾病关联分析中高维遗传数据的统计推断
面向数据降维的深度核机器算法研究