非同义单核苷酸变异影响蛋白质功能的预测方法研究

基本信息
批准号:31471243
项目类别:面上项目
资助金额:70.00
负责人:叶志强
学科分类:
依托单位:北京大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:杜野,张敏,王飏,胡学佳,邹旭东,马静,熊瑶
关键词:
序列比对生物信息算法蛋白质结构预测单核苷酸变异机器学习
结项摘要

With the unprecedented development of next-generation sequencing technology, the genomic variation data accumulated rapidly, thus it is of an urgent demand to identify those impacting proteins' function. To meet this demand, it is a nessary approach to develop computational methods to predict the functional impact of genomic variants, especially the non-synonymous single nucleotide variants (nsSNV) on proteins. After developing more than 10 years, this direction seems to be on a plateau concerning the prediction accuracy, and lacks large progress on mining novel prediction attributes. In this proposal, we plan to optimise and to innovate at several steps for improving this kind of methods. In detail, we will first emphasize comparing and selecting the available training datasets, and will improve the automatic pipeline for multiple sequence alignment in order to optimise the quality of sequence-related attributes. Second, we will explore novel spatial attributes based on predicted protein structures in order to expand the scope of this kind of attributes. Third, we will search optimal dataset partition to obtain several subsets with lower heterogeneity, and select attributes and train prediction models on these subsets seperately. Fourth, we will construct meta-models combining scores from other tools and our own. We will finally build up a standalone prediction tool, so that researchers can use it to identify nsSNVs with funtional impacts from the data ocean, and further help intepreting possible disease etiology or mechanism of differential drug effects.

新一代测序技术的空前发展,使得基因组变异数据迅速积累,因此从中鉴定出影响功能的变异成为一项迫切的需求。研究计算方法预测基因组变异特别是非同义单核苷酸变异(nsSNV)对蛋白质功能的影响是解决该需求的必经途径。经过十多年的发展,该方向在预测准确率上似乎已进入平台期,在挖掘新颖预测属性方面也缺乏大进展。本项目拟从该类方法的若干步骤进行优化和创新,力争突破当前困境。具体包括:在第一步就重视对训练数据集进行比较和优选,进而改进自动构建多序列比对的流程以提高序列属性的质量;基于自行预测的蛋白质结构探索新颖空间属性,以扩展该类属性所能适用的范围;摸索划分训练数据的最佳方式,用以形成若干差异性较小的子集并分别选择属性训练预测模型;结合其他工具的预测分值进一步构建复合预测模型。最后将形成独立预测工具,以供研究者从海量数据中挖掘出导致功能改变的nsSNV,进而协助解读可能的疾病机制或药物差异反应的机理。

项目摘要

测序技术的发展使得研究人员很容易实现对不同个体、组织、细胞的基因测序,从而鉴定出大量的基因变异,特别是非同义单核苷酸变异(nsSNV)。研究计算方法预测出真正影响功能的变异对后续实验设计、假说生成、功能验证、致病机制的理解等非常必要。本项目以训练机器学习分类器的策略来研发该类预测方法,以期提高准确率。我们基于序列、实验结构、预测的结构,挖掘探索了大量的新属性,并尝试了近年来流行的多种新的机器学习框架,包括GBDT、随机森林、SVM、XGBoost等。发现随机森林效果最好,且其预测性能比多个知名分类器要高,但并不显著。这提示在发展大而全的nsSNV预测工具方面,性能确实接近瓶颈。另一方面,我们也研发了专门针对特定蛋白家族的nsSNV预测分类器,包括WD40蛋白家族和alpha螺线管家族。发现相比通用的预测工具,针对特定蛋白家族的预测工具的预测性能提升较为明显,一般都在2个百分点以上。针对WD40蛋白家族,我们专门建立了数据库,研究了其分类、演化和相互作用网络,并整合了大量致病性的基因变异数据,结合预测的WD40结构,对其致病机制提出了结构层面的理解。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

演化经济地理学视角下的产业结构演替与分叉研究评述

演化经济地理学视角下的产业结构演替与分叉研究评述

DOI:10.15957/j.cnki.jjdl.2016.12.031
发表时间:2016
2

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
3

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019

叶志强的其他基金

批准号:31301038
批准年份:2013
资助金额:25.00
项目类别:青年科学基金项目
批准号:20975017
批准年份:2009
资助金额:32.00
项目类别:面上项目
批准号:30800641
批准年份:2008
资助金额:18.00
项目类别:青年科学基金项目

相似国自然基金

1

人类复杂疾病相关的非编码区调控性单核苷酸变异预测研究

批准号:31301089
批准年份:2013
负责人:滕明祥
学科分类:C0608
资助金额:22.00
项目类别:青年科学基金项目
2

蛋白质功能位点预测方法的研究

批准号:20773006
批准年份:2007
负责人:李春华
学科分类:B0301
资助金额:26.00
项目类别:面上项目
3

基于多源信息融合的蛋白质功能预测方法研究

批准号:61903106
批准年份:2019
负责人:李满枝
学科分类:F0305
资助金额:25.00
项目类别:青年科学基金项目
4

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

批准号:61462047
批准年份:2014
负责人:林卫中
学科分类:F0213
资助金额:45.00
项目类别:地区科学基金项目