The gene expression profiling technology has become an important means of cancer diagnostic. With the swift progress of next-generation sequencing, gene expression profiles data with high dimensionality and small samples set showed explosive growth. Because of the strong association between cancers and genetic abnormality, it is essential to design the efficient feature selection method to identify these genetic abnormality efficiently, so as to make the effective diagnosis and treatment for patients. Based on the nonparametric maximum information coefficient exploration, this project plans to reduce redundant and irrelevant features through measuring the high-dimensional features correlation. Then, a new heuristic feature selection method is proposed based on the Apriori theory, which effectively extends the search range of feature subsets and tries to ensure the selection of optimal feature subset. At the same time, the parallel acceleration technology of GPU is used to accelerate the process of feature subset selection. The implement of the project will lead to a series of computational methods, pipelines and software for processing the gene expression profiles. The proposed scheme also provides a reference for effectively analyzing small size dataset of high dimensionality. The project also provides strong methodological and technical support for genomics and disease research.
基因表达谱分析技术已经成为癌症研究的重要手段。随着新一代测序技术的快速发展,具有高维度、小样本等特点的基因表达谱数据呈爆发式增长。而通常肿瘤癌症等疾病都与基因有关,因此迫切需要设计合理的特征选择方法来准确、快速地找出与疾病相关的基因,从而对病人的病情做出准确诊断和有效治疗。本项目基于非参数探索的最大信息系数衡量高维特征相关性,去除冗余和不相关特征基因。提出了基于Apriori算法思想的启发式关联特征子集选择方法,有效动态扩展特征子集搜索范围,尽量保证获取最优特征子集。同时,利用GPU并行优化技术,加速实现最优特征子集的选择过程。本项目的研究成果体现为分析基因表达谱数据的一系列计算方法、处理流程和软件工具。提出的方案可为如何有效分析高维小样本数据提供参考,同时为基因组学和疾病研究提供强有力的方法论和技术支撑。
后基因时代,生物序列数据呈爆炸式增长,当前的实验验证医学发展严重滞后,无论从获得的病人样本还是实验所得蛋白质功能都需要损耗大量人力物力和财力。同时,获取数据的各个环节也会引入很多噪声。因此,如何克服重重困难,利用有限的数据和技术手段对生物医学问题有更深的认知至关重要。. 本项目针对生物医学数据的几个关键问题开展研究和探索工作,旨在利用现在流行的机器学习技术解决现实问题。基于现代优化方法进行特征选择算法设计,提出两种特征选择算法,一种基于过滤法和遗传算法的特征选择算法,另一种基于二进制量子粒子群算法的特征选择算法。同时,项目团队针对生物蛋白序列进行特征工程分析,设计有效算法对蛋白功能进行准确预测,并分别提出基于两步组合算法的蛋白功能预测模型和基于字典学习的抗癌肽预测方法,并在当前流行的抗癌肽和抗CRISPR肽数据上验证了所提方法的有效性。此外,生物医学数据具有多模的特点,全面认识数据对医学诊断等问题具有重要意义。因此,项目团队使用神经网络技术对具有多标签特性的慢性病数据进行了初探,同时使用深度学习技术对生物医学图像数据进行了初步分析,这些都为下一步的研究工作打下良好的基础。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例
基因表达谱缺失数据的填补融合方法及策略研究
基于植物胁迫响应基因表达数据和GO术语结合的特征选择及调控网络研究
基于农作物高通量表达谱数据的特征选择与分子网络构建的评估算法
基于基因功能模块化概念的基因表达谱数据挖掘技术