高维生物数据的PLS特征选择方法研究

基本信息
批准号:61473329
项目类别:面上项目
资助金额:57.00
负责人:游文杰
学科分类:
依托单位:福建师范大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:郭永宁,李立耀,孙树亮,阚元平
关键词:
特征提取数据挖掘鉴别分析特征选择
结项摘要

In view of the data with high-dimensional small sample (HDSS), high noise, strong relevance and multi-class, our project focuses on the models and algorithms of feature reduction based on the theory and methods of statistical computing and machine learning. We present multi-feature selection, which takes into accounts the combined effects of all the features and the correlation among the features, indirectly consider the joint distribution of features, and effective detect the features with a relatively small main effect, but with a strong interaction effect; We present a novel multi-feature selection based on recursive feature elimination strategy, which can improve the consistency of the selected feature subset, and makes the selected feature subset more compact; We present multipertubation ensemble feature selection, which improve the affectiveness of the selected feature subset on the small sample data; We propose the novel method which implements information fusion of feature selection and feature extraction in a unified framework. It can effectively improve the generalization ability of the learner, and enhance the interpretability and understandability of recognition results. Moreover, our algorithm is computationally efficient especially for high-dimensional dataset, and it can be applied to both two-category classification and multi-category classification problems without limitation. Further, our methodology is applied to the study of tumor gene expression analysis on genome-wide level, and focusing on identify tumor-specific expressed genes and extract co-regulate genes. The works will assist biologists to understand and explain the mechanism of tumor-specific gene expression, and effectively assist the biological experiments level. The projected impact of our results will be of interest to cancer biologists, it will provide a new research paradigm in studies of other complex traits or diseases under multi-conditions. Our model and algorithms are also applied to the other study of biological information processing, to achieve the efficient feature selection, and to assistant biological experiments. Our research will help promote biological information processing and accelerate the understanding of its frontier issues. It can provide a theoretical basis and practical calculation methods to solve complex calculation of HDSS.

基于统计计算与机器学习理论方法,针对高维数、小样本、高噪声、强相关和多类别的生物数据,研究偏最小二乘特征选择模型算法。给出考虑交互效应的多特征选择算法,筛选较小主效应且有较强交互效应的信息特征;引入递归特征消除策略的多特征选择算法,提升所选子集的一致性和紧致性;给出多扰动的集成特征选择方法,增强所选特征子集的稳健性;提出选维与降维的特征级信息融合框架,挖掘高维数据的潜结构信息;开发实现计算分析工具。将研究算法应用到全基因组水平的肿瘤基因表达分析中,筛选出肿瘤特异表达基因,提取表达模式和共调节基因,辅助生物学家理解和解释肿瘤基因的特异表达机制,达到有效辅助生物实验的水平。本研究计划,有助于加强高维小样本多类别生物数据的处理方法研究,促进生物信息处理和前沿问题的理解,对数据挖掘方法与生物学科的结合研究有着信息学与生物学意义。

项目摘要

基于统计计算与机器学习的理论与方法,研究适合于生物数据特点的特征工程(特征表示和特征选择),具体包括:..1)具有交互效应的多源信息融合的特征表示。DNA结合蛋白在各种细胞过程中发挥着极其重要的作用,在理解和解释蛋白质功能中,识别DNA结合蛋白是一个非常重要的任务。给出基于蛋白质序列数据的特征表示与选择性集成。首先,提出具有交互效应的多信息融合的特征表示模型,它同时考虑了物化属性、进化信息以及残基间跳空距离的交互效应。其次,给出基于跳空距离的选择性集成算法,它通过选择得到具有差异性的基分类器,提升整体分类器的泛化能力。相关研究结果给出了多源信息交互融合特征表示的数学模型与算法,以及基于参数扰动的选择性集成分类算法,实验表明它们可以有效地用于预测DNA结合蛋白,并且所提交互融合特征表示有利于从交互作用的视角去理解DNA结合蛋白在细胞中的功能与作用。..2)基于偏最小二乘的多扰动集成的特征选择。肿瘤是一种复杂的基因疾病,是由于某些染色体上DNA损伤而导致的细胞内基因异常表达。识别肿瘤疾病状态之间发生特异表达的基因及其功能是研究肿瘤疾病发病机理的一项重要任务。针对肿瘤微阵列数据的特点,引入不同的扰动机制,给出多扰动集成的基因选择的分析框架;利用PLS多基因度量方法,在该框架下发展出新的基于PLS集成基因选择方法。该算法基于子集的整体效应,能够识别出具有差异表达的基因,同时还能识别出差异表达信号微弱的基因。算法基于多重扰动机制,能够识别出一系列不同的基因子集,这些子集的长度较小且整体判别能力较强。在只有有限样例的人类肿瘤微阵列数据集上进行测试,算法能够识别出众多不同的肿瘤特异基因子集,这些子集在独立测试集上均可实现100%的识别。在对子集中的弱差异表达基因做进一步的分析,发现它们中间有些是重要的潜在基因,存在对肿瘤疾病的间接表达。因此,相对于传统方法仅能得到一组的特异基因子集,所提算法所识别出的一系列不同的基因子集及其弱差异表达基因,能够提高对肿瘤疾病分子特征的理解,能够更全面的认识肿瘤基因的特异表达模式,对辅助理解肿瘤发生发展的机理、寻找肿瘤药物治疗的分子靶标,以及可靠的分子诊断与治疗,提供新的视角。..本研究加强了相关生物数据的处理方法,促进了生物信息处理和前沿问题的理解,对于数据挖掘方法与生物学科的结合研究有着信息学与生物学意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

相似国自然基金

1

基于特征聚类的高维混合属性数据特征选择方法

批准号:61806131
批准年份:2018
负责人:贾红
学科分类:F0603
资助金额:25.00
项目类别:青年科学基金项目
2

基于随机森林的高维生物医学数据因果推断方法研究

批准号:81872709
批准年份:2018
负责人:赵杨
学科分类:H3011
资助金额:25.00
项目类别:面上项目
3

高维数据特征选择的稳定性研究

批准号:61202144
批准年份:2012
负责人:杨帆
学科分类:F0605
资助金额:23.00
项目类别:青年科学基金项目
4

高维数据的变粒度分割协同粒子群特征选择方法及应用

批准号:61876185
批准年份:2018
负责人:张勇
学科分类:F0601
资助金额:64.00
项目类别:面上项目