面向致癌基因识别的多组学数据矩阵分解算法研究

基本信息
批准号:61902215
项目类别:青年科学基金项目
资助金额:27.00
负责人:代凌云
学科分类:
依托单位:曲阜师范大学
批准年份:2019
结题年份:2022
起止时间:2020-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:
关键词:
生物信息学矩阵分解多组学数据整合分析致癌基因基因组学
结项摘要

With the development of large-scale projects such as the cancer genome atlas (TCGA), multi-omics data of cancer are exploding. It is one of the hot topics in the field of bioinformatics that how to design effective computational methods to integrate and analyze the heterogeneous multi-omics data of cancer, analyze the complex pathogenesis of cancer, and assist clinical diagnosis and treatment. In this project, multi-omics data of cancer are integrated and analyzed based on matrix decomposition methods. The main contents are as follows: Firstly, the graph regularization constraints were introduced in the rows and columns of non-negative matrix decomposition method, and the integrative non-negative matrix decomposition method based on the double graph constraints was designed to deeply mining the oncogenes and key gene modules; Secondly, the self-paced learning and the soft weighting strategy of polynomial are introduced into non-negative matrix decomposition model , and the new method is used to integrate and analyze multi-omics data of cancer; Thirdly, L2,1 norm and block constraints are introduced to improve the robustness of the algorithm to outliers and noises. Reasonable integration frameworks are designed to integrate and analyze heterogeneous multi-omics data, identify oncogenes and analyze their pathogenic mechanisms. The implementation of this project can optimize the theoretical system of matrix decomposition, help people to understand the pathogenesis of cancer deeply, and promote the development of auxiliary diagnosis and treatment of cancer and precision medicine.

随着癌症基因组图谱(TCGA)等大型项目的实施,癌症多组学数据呈爆发式增长。如何设计开发有效的计算方法整合分析异质性的癌症多组学数据,解析癌症复杂的致病机制是当前生物信息学领域的热点课题之一。本项目基于矩阵分解方法对癌症多组学数据进行整合分析,具体内容如下:在非负矩阵分解方法的行向和列向上同时引入图正则约束,设计出双图整合非负矩阵分解方法,深度挖掘致癌基因及关键基因模块;将自步学习引入非负矩阵分解模型,并在自步学习中引入了多项式软加权策略,设计出自步学习稀疏非负矩阵分解方法,整合分析癌症多组学数据;引入L2,1范数和块约束提高算法对异常值和噪声的鲁棒性,设计出块约束图正则稀疏低秩表示方法。设计合理的数据整合框架,对异质性的多组学数据整合分析,识别致癌基因,分析其致病机制。本项目的实施不仅可以完善现有的矩阵分解理论,又能够对深入理解癌症的致病机制提供帮助,促进癌症的辅助诊疗和精准医学的发展。

项目摘要

生物和医学大数据的快速积累,给生命科学研究带来了前所未有的机遇。与此同时,多组学数据的爆发式增长及其高维小样本、高噪声、异质性的特点,也对数据挖掘方法提出了新的挑战。本项目提出了有效的算法进行致癌基因识别、癌症样本聚类与分型以及疾病关联信息预测。首先,本项目将对称约束和稀疏约束引入传统的低秩矩阵分解方法中,提出了对称稀疏约束下的图正则化低秩表示方法,缓解原始数据中噪声对低秩表示的影响,利用图正则化保留原始数据固有的几何结构。提出了多视图流形正则化紧致低秩表示方法,提取更多的多视图互补信息并用于癌症多组学数据的样本聚类,显著提高了多组学数据的聚类性能,对癌症的早期诊断和临床治疗具有重要意义。另一方面,通过整合多组学数据利用网络嵌入方法提取的患者特征用于肿瘤分型,得到的平均AUC为0.91,说明该方法提取的患者特征对肿瘤分型是有效的。并利用无监督聚类算法——基于密度的谱聚类来进行划分单个癌症亚型,识别出的绝大多数亚型与患者生存率显著相关。此外,本项目将卷积自编码器和卷积神经网络相结合,构建深度迁移学习分类模型进行肺癌早期诊断,实验结果表明卷积自编码器算法降低数据集的维数,可以较好地满足了迁移学习的要求,与卷积神经网络相结合构建深度迁移学习模型得到了较好的分类预测效果。并且,本项目还将基于多相似性融合的不平衡双随机游走方法用于预测潜在的疾病关联信息,多种相似性融合为预测提供了丰富的先验信息,大大提高了预测的精确度。本项目为异质性的癌症多组学的整合分析提供了新的思路与方法,有助于深入理解癌症的致病机制,为癌症的预防、早期诊断和精准治疗提供参考,具有非常重要的理论意义和临床价值。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

代凌云的其他基金

相似国自然基金

1

基于非负矩阵分解的多组学数据分析方法及其在癌症基因信号识别中的应用

批准号:61402010
批准年份:2014
负责人:谢新平
学科分类:F0213
资助金额:24.00
项目类别:青年科学基金项目
2

面向癌症基因组图谱数据分析的稀疏矩阵分解方法研究

批准号:61572284
批准年份:2015
负责人:刘金星
学科分类:F0213
资助金额:66.00
项目类别:面上项目
3

基于低秩和图正则约束的矩阵分解方法研究及在癌症多组学数据中的应用

批准号:61872220
批准年份:2018
负责人:刘金星
学科分类:F0213
资助金额:64.00
项目类别:面上项目
4

基于多组学数据融合与谱聚类随机行走模型挖掘二维致癌抑癌基因群失调网络算法研究

批准号:61371153
批准年份:2013
负责人:史明光
学科分类:F0124
资助金额:74.00
项目类别:面上项目