癌症驱动突变的生物信息学分析和实验验证

基本信息
批准号:61672037
项目类别:面上项目
资助金额:65.00
负责人:夏俊峰
学科分类:
依托单位:安徽大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:徐昌志,张楠楠,张弟,岳振宇,温鹏博,魏然,姚瑶,王孝娟,石芳
关键词:
稀疏表示驱动突变蛋白质相互作用网络黑色素瘤集成学习
结项摘要

Large scale sequencing of cancer genomes has uncovered thousands of somatic mutations compared with the germline of the same cancer patient. These mutations include the genomic alterations that cause or promote cancer (driver mutation), as well as alteratoins present in the cancer genome but without obvious advantage to the cancer cell when they occurred (passenger mutation). Determining whether the given mutations are driver or passenger mutations is one important goal of cancer genome sequencing efforts. Experimental methods for detection of driver mutations are not applicable on a large scale since they are time consuming and expensive. Therefore, reliable and efficient computational methods for identifying driver mutations are greatly desired and urgently required. First,we will construct the datasets of driver mutations and passenger mutations from different sources, under the assumption that each source has its own biases and errors (i.e. each dataset has an unknown percentage of misclassified mutations), extract a wide variety of features from a combination of protein sequence-based and evolutionary information and apply feature selection to remove noisy and irrelevant features, with the purpose of reducing the computational complexity and improving the classification accuracy, and finally design a new ensemble classifer, extreme learning machine rotation ensemble algorithm, to identify driver mutations. Second, we will mathematically construct sparsity constraints, propose a novel driver gene network with the combination of sparse representation and random walk with restart algorithm in a protein-protein interaction network. In addition, we will perform a functional enrichment analysis of the driver gene network to reveal cancer-related biological pathways. Last,we will apply the proposed methods to the melanoma sequencing data, with the purpose of discovering clinically relevant driver mutations. And both in vitro and in vivo experiments will be performed to validate a number of predicted hits.The implementation of this project will not only provide valuable insight into the principles governing cancer initiation, promotion and progression, but also help to discover new targets for cancer therapy.

通过癌症基因组测序,研究发现与正常细胞相比,癌细胞基因组存在大量的体细胞突变。如何从众多突变信息中区分出癌症发生发展中起决定性作用的驱动突变和癌症发生过程中随机发生的乘客突变是目前的研究热点。通过生物实验检测驱动突变费时费力且代价昂贵,利用计算方法则可以弥补这一缺陷。本项目拟从蛋白质序列出发,在数据集构造、特征编码、分类模型和网络模型构建等方面进行深入研究。首先基于不同假设和数据源构造驱动突变和乘客突变数据集,构建基于氨基酸序列与进化信息耦合的特征编码方式,开发基于极限学习机旋转集成分类器的驱动突变预测方法;然后通过构造网络稀疏性约束条件,基于蛋白质相互作用网络和随机行走模型,融合稀疏表示理论构建癌症驱动基因网络和功能通路模型;最后应用于黑色素瘤测序数据中以挖掘出有临床意义的驱动突变并利用实验学方法验证计算的准确性。本项目的研究将为我们理解癌症发生发展的机制和靶向药物设计提供理论上的依据。

项目摘要

通过高通量测序,研究发现与正常细胞相比,癌细胞基因组存在大量的体细胞突变。如何从众多突变信息中区分出癌症发生发展中起决定性作用的驱动突变和癌症发生过程中随机发生的乘客突变是目前的研究热点。通过生物实验检测驱动突变费时费力且代价昂贵,利用计算方法则可以弥补这一缺陷。本项目从癌症驱动突变数据集构造、特征编码以及预测模型构建等层面开展研究。首先在多套标准测试集上系统分析评估了已有癌症驱动错义突变预测方法的性能;然后基于不同假设和数据源构建了癌症驱动插入缺失突变数据库dbCID、乘客突变数据库dbCPM和癌症放疗增敏数据库dbCRSR;此外在特征编码方式研究方面,本项目收集整理了已有的一些特征,在此基础上提出了一些新的特征编码方式,最终构建得到4大类(基因、DNA、转录本和蛋白质水平)特征;最后在预测模型构建方面,提出了基于高质量负样本数据和集成学习的驱动错义突变预测模型CMMPred、基于生物学特征和集成学习方法的驱动插入缺失突变预测模型PredCID、基于多维度生物学特征的致病同义突变预测模型IDSV、基于集成学习的致病同义突变预测模型PrDSM、基于微环境特征的蛋白质-DNA结合界面热点残基预测模型PrPDH和基于点突变基因长度与基因表达并利用网络整合分析的癌症驱动基因识别算法DriverFinder,并研究了黑色素瘤驱动基因预测算法及其功能富集分析。本项目的研究成果将为我们理解癌症发生发展的机制和靶向药物设计提供一些理论上的依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

一种光、电驱动的生物炭/硬脂酸复合相变材料的制备及其性能

DOI:10.16085/j.issn.1000-6613.2022-0221
发表时间:2022
2

跨社交网络用户对齐技术综述

跨社交网络用户对齐技术综述

DOI:10.12198/j.issn.1673 − 159X.3895
发表时间:2021
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

城市轨道交通车站火灾情况下客流疏散能力评价

城市轨道交通车站火灾情况下客流疏散能力评价

DOI:
发表时间:2015
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

夏俊峰的其他基金

相似国自然基金

1

癌症突变影响自噬相关LIR模体的生物信息学分析

批准号:31801095
批准年份:2018
负责人:邓万锟
学科分类:C0609
资助金额:27.00
项目类别:青年科学基金项目
2

癌症基因组突变谱的特征分析及其在预测癌症驱动性基因上的应用

批准号:81573022
批准年份:2015
负责人:张泽民
学科分类:H1826
资助金额:70.00
项目类别:面上项目
3

抗HIV新靶标的生物信息学发掘和实验验证

批准号:31401142
批准年份:2014
负责人:代绍兴
学科分类:C0608
资助金额:24.00
项目类别:青年科学基金项目
4

人类周期性表达基因的生物信息学鉴定和实验验证

批准号:30971454
批准年份:2009
负责人:张闻
学科分类:C0703
资助金额:8.00
项目类别:面上项目