Gene selection is an important research subject both in machine learning and bioinformatics. Successfully identifying information genes from gene expression data will significantly help to improve the cancer classification accuracy. In this project, we will consider three methods for gene selection and cancer classification via Lp (0<p<1) regularization SVM, including: (1) Lp SVM will be studied to solve the“curse of dimensionality”problem in gene expression data; (2) To encourage the grouping effect, we will propose double regularization SVMs to select or not select strongly correlated genes together; (3) To incorporate prior knowledge into classification process, graph regularized SVMs are considered for grouping pursuit and feature selection over an graph. The aim of this project is to improve the classification accuracy and feature selection stability. The reasonable and robust regularization models will be built. The efficient and stable algorithms will be constructed based on the equivalent smooth equations of the problems. Theoretical analysis will be presented for the performance of the proposed algorithms. Our research will open up a new way to develop numerical methods for Lp regularization problem and provide efficient methods to machine learning problems on gene expression data.
基因选择是机器学习和生物信息学中的重要课题。从高维小样本的基因数据集中发现与疾病相关的关键基因有助于提高癌症识别的准确性。本项目研究基于Lp(0<p<1)正则化支持向量机的基因选择算法,包括:(1)为有效克服基因数据集的 “维数灾难”问题,研究具有特征选择能力的Lp正则化支持向量机;(2)为发现高度相关的基因组合,研究具有组选能力的双重正则化支持向量机;(3)为结合生物学先验知识学习,研究基于图约束的双重正则化支持向量机。本项目以提高分类准确性和特征选择稳定性为目的,建立合理、鲁棒的正则化模型,针对模型的等价形式研究高效、稳定的优化算法,理论分析算法的性能。本项目的研究将为求解非光滑非凸且非Lipschitz连续的Lp正则化问题开辟新的途径,为解决高维小样本基因表达谱数据的学习问题提供有效工具。
项目按照申请书计划进行,在基于Lp正则化支持向量机的基因选择方法及相关的数值计算方面,取得了如下成果:(1)研究基于Lp-SVM(0 < p < 1)的特征选择方法,将其转换为等价的光滑约束最优化问题,证明模型间的等价性和其良好性质,为求解非光滑非凸且非Lipschitz连续的Lp正则化问题开辟新的途径。数值实验表明,自适应的p值可以根据数据选择模型,从而提高模型的稀疏性和分类的准确性。对于p=0.5的特殊形式,研究适合于大规模问题的序列线性规划方法,具有好的数值结果,为解决高维小样本基因表达谱数据的学习问题提供有效工具。(2)研究具有组选能力的正则化模型以及基于图的特征选择方法,探索了结构化特征选择的途径。(3)研究求解大规模非线性方程组和最优化问题的稀疏拟牛顿法,理论证明了算法的全局收敛性,所提出的算法都进行了数值检验,在函数值计算次数, 梯度值计算次数和计算时间方面均有较好的表现,使得设计更高效的学习算法成为可能.
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
Lp正则化问题的算法
约束Lp正则化问题算法及应用
基于自适应支持向量机的微阵列分类与群体基因选择研究
1范数正则支持向量机及其压缩机器学习框架