非同义单核苷酸变异影响蛋白质功能的预测方法研究

基本信息

批准号：31471243

项目类别：面上项目

资助金额：70.00

负责人：叶志强

学科分类：

依托单位：北京大学

批准年份：2014

结题年份：2018

起止时间：2015-01-01 - 2018-12-31

项目状态：已结题

项目参与者：杜野,张敏,王飏,胡学佳,邹旭东,马静,熊瑶

关键词：

序列比对生物信息算法蛋白质结构预测单核苷酸变异机器学习

结项摘要

With the unprecedented development of next-generation sequencing technology, the genomic variation data accumulated rapidly, thus it is of an urgent demand to identify those impacting proteins' function. To meet this demand, it is a nessary approach to develop computational methods to predict the functional impact of genomic variants, especially the non-synonymous single nucleotide variants (nsSNV) on proteins. After developing more than 10 years, this direction seems to be on a plateau concerning the prediction accuracy, and lacks large progress on mining novel prediction attributes. In this proposal, we plan to optimise and to innovate at several steps for improving this kind of methods. In detail, we will first emphasize comparing and selecting the available training datasets, and will improve the automatic pipeline for multiple sequence alignment in order to optimise the quality of sequence-related attributes. Second, we will explore novel spatial attributes based on predicted protein structures in order to expand the scope of this kind of attributes. Third, we will search optimal dataset partition to obtain several subsets with lower heterogeneity, and select attributes and train prediction models on these subsets seperately. Fourth, we will construct meta-models combining scores from other tools and our own. We will finally build up a standalone prediction tool, so that researchers can use it to identify nsSNVs with funtional impacts from the data ocean, and further help intepreting possible disease etiology or mechanism of differential drug effects.

新一代测序技术的空前发展，使得基因组变异数据迅速积累，因此从中鉴定出影响功能的变异成为一项迫切的需求。研究计算方法预测基因组变异特别是非同义单核苷酸变异（nsSNV）对蛋白质功能的影响是解决该需求的必经途径。经过十多年的发展，该方向在预测准确率上似乎已进入平台期，在挖掘新颖预测属性方面也缺乏大进展。本项目拟从该类方法的若干步骤进行优化和创新，力争突破当前困境。具体包括：在第一步就重视对训练数据集进行比较和优选，进而改进自动构建多序列比对的流程以提高序列属性的质量；基于自行预测的蛋白质结构探索新颖空间属性，以扩展该类属性所能适用的范围；摸索划分训练数据的最佳方式，用以形成若干差异性较小的子集并分别选择属性训练预测模型；结合其他工具的预测分值进一步构建复合预测模型。最后将形成独立预测工具，以供研究者从海量数据中挖掘出导致功能改变的nsSNV，进而协助解读可能的疾病机制或药物差异反应的机理。

项目摘要

测序技术的发展使得研究人员很容易实现对不同个体、组织、细胞的基因测序，从而鉴定出大量的基因变异，特别是非同义单核苷酸变异（nsSNV）。研究计算方法预测出真正影响功能的变异对后续实验设计、假说生成、功能验证、致病机制的理解等非常必要。本项目以训练机器学习分类器的策略来研发该类预测方法，以期提高准确率。我们基于序列、实验结构、预测的结构，挖掘探索了大量的新属性，并尝试了近年来流行的多种新的机器学习框架，包括GBDT、随机森林、SVM、XGBoost等。发现随机森林效果最好，且其预测性能比多个知名分类器要高，但并不显著。这提示在发展大而全的nsSNV预测工具方面，性能确实接近瓶颈。另一方面，我们也研发了专门针对特定蛋白家族的nsSNV预测分类器，包括WD40蛋白家族和alpha螺线管家族。发现相比通用的预测工具，针对特定蛋白家族的预测工具的预测性能提升较为明显，一般都在2个百分点以上。针对WD40蛋白家族，我们专门建立了数据库，研究了其分类、演化和相互作用网络，并整合了大量致病性的基因变异数据，结合预测的WD40结构，对其致病机制提出了结构层面的理解。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：10.16796/j.cnki.1000-3770.2022.03.003

发表时间：2022

DOI：10.12354/j.issn.1000-8179.2021.20201763

发表时间：2021

DOI：

发表时间：2021

DOI：10.7524 /j.issn.0254-6108.2017122903

发表时间：2018

DOI：10.13197/j.eeev.2019.05.95.fuwq.009

发表时间：2019

叶志强的其他基金

批准号：31301038

批准年份：2013

资助金额：25.00

项目类别：青年科学基金项目

批准号：20975017

批准年份：2009

资助金额：32.00

项目类别：面上项目

批准号：30800641

批准年份：2008

资助金额：18.00

项目类别：青年科学基金项目

相似国自然基金

人类复杂疾病相关的非编码区调控性单核苷酸变异预测研究

批准号：31301089

批准年份：2013

负责人：滕明祥

学科分类：C0608

资助金额：22.00

项目类别：青年科学基金项目

蛋白质功能位点预测方法的研究

批准号：20773006

批准年份：2007

负责人：李春华

学科分类：B0301

资助金额：26.00

项目类别：面上项目

基于多源信息融合的蛋白质功能预测方法研究

批准号：61903106

批准年份：2019

负责人：李满枝

学科分类：F0305

资助金额：25.00

项目类别：青年科学基金项目

对具有非平衡多标签特性的蛋白质功能类型分类预测研究

批准号：61462047

批准年份：2014

负责人：林卫中

学科分类：F0213

资助金额：45.00

项目类别：地区科学基金项目

非同义单核苷酸变异影响蛋白质功能的预测方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

EBPR工艺运行效果的主要影响因素及研究现状

外泌体在胃癌转移中作用机制的研究进展

基于铁路客流分配的旅客列车开行方案调整方法

珠江口生物中多氯萘、六氯丁二烯和五氯苯酚的含量水平和分布特征

基于被动变阻尼装置高层结构风振控制效果对比分析

叶志强的其他基金

通过转录组分析探讨高原鼠兔的高原适应性进化机制

基于钌配合物生物荧光探针的研制及其在复杂样品生化分析中的应用

单氨基酸多态的疾病相关性预测及分析

相似国自然基金