With the unprecedented development of next-generation sequencing technology, the genomic variation data accumulated rapidly, thus it is of an urgent demand to identify those impacting proteins' function. To meet this demand, it is a nessary approach to develop computational methods to predict the functional impact of genomic variants, especially the non-synonymous single nucleotide variants (nsSNV) on proteins. After developing more than 10 years, this direction seems to be on a plateau concerning the prediction accuracy, and lacks large progress on mining novel prediction attributes. In this proposal, we plan to optimise and to innovate at several steps for improving this kind of methods. In detail, we will first emphasize comparing and selecting the available training datasets, and will improve the automatic pipeline for multiple sequence alignment in order to optimise the quality of sequence-related attributes. Second, we will explore novel spatial attributes based on predicted protein structures in order to expand the scope of this kind of attributes. Third, we will search optimal dataset partition to obtain several subsets with lower heterogeneity, and select attributes and train prediction models on these subsets seperately. Fourth, we will construct meta-models combining scores from other tools and our own. We will finally build up a standalone prediction tool, so that researchers can use it to identify nsSNVs with funtional impacts from the data ocean, and further help intepreting possible disease etiology or mechanism of differential drug effects.
新一代测序技术的空前发展,使得基因组变异数据迅速积累,因此从中鉴定出影响功能的变异成为一项迫切的需求。研究计算方法预测基因组变异特别是非同义单核苷酸变异(nsSNV)对蛋白质功能的影响是解决该需求的必经途径。经过十多年的发展,该方向在预测准确率上似乎已进入平台期,在挖掘新颖预测属性方面也缺乏大进展。本项目拟从该类方法的若干步骤进行优化和创新,力争突破当前困境。具体包括:在第一步就重视对训练数据集进行比较和优选,进而改进自动构建多序列比对的流程以提高序列属性的质量;基于自行预测的蛋白质结构探索新颖空间属性,以扩展该类属性所能适用的范围;摸索划分训练数据的最佳方式,用以形成若干差异性较小的子集并分别选择属性训练预测模型;结合其他工具的预测分值进一步构建复合预测模型。最后将形成独立预测工具,以供研究者从海量数据中挖掘出导致功能改变的nsSNV,进而协助解读可能的疾病机制或药物差异反应的机理。
测序技术的发展使得研究人员很容易实现对不同个体、组织、细胞的基因测序,从而鉴定出大量的基因变异,特别是非同义单核苷酸变异(nsSNV)。研究计算方法预测出真正影响功能的变异对后续实验设计、假说生成、功能验证、致病机制的理解等非常必要。本项目以训练机器学习分类器的策略来研发该类预测方法,以期提高准确率。我们基于序列、实验结构、预测的结构,挖掘探索了大量的新属性,并尝试了近年来流行的多种新的机器学习框架,包括GBDT、随机森林、SVM、XGBoost等。发现随机森林效果最好,且其预测性能比多个知名分类器要高,但并不显著。这提示在发展大而全的nsSNV预测工具方面,性能确实接近瓶颈。另一方面,我们也研发了专门针对特定蛋白家族的nsSNV预测分类器,包括WD40蛋白家族和alpha螺线管家族。发现相比通用的预测工具,针对特定蛋白家族的预测工具的预测性能提升较为明显,一般都在2个百分点以上。针对WD40蛋白家族,我们专门建立了数据库,研究了其分类、演化和相互作用网络,并整合了大量致病性的基因变异数据,结合预测的WD40结构,对其致病机制提出了结构层面的理解。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
玉米叶向值的全基因组关联分析
一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能
基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像
基于LASSO-SVMR模型城市生活需水量的预测
人类复杂疾病相关的非编码区调控性单核苷酸变异预测研究
蛋白质功能位点预测方法的研究
基于多源信息融合的蛋白质功能预测方法研究
对具有非平衡多标签特性的蛋白质功能类型分类预测研究