According to the characteristics of biomedical big data, we investigate the mechanisms of critical diseases by the big data mining techniques. We establish the big data platform that is comprised of multi-omics data, medical images, electronic medical records and published papers. On the basis of the big data platform, we perform data mining for the biomedical mechanisms of critical diseases and present new methods for deep mining by which the regulatory networks and key factors of cancers are established. By modeling the trans-differentiations and conversions between different cell types in single cell levels, including carcinogenesis process, we reveal the relationship between genetic mutations and carcinogenesis processes in different stages and cell phenotypes (characterized by medical images and disease symptoms), and provide an insight into the mechanisms of the developments of critical diseases and drug targets by identifying drivers and passengers of cancers. We also transplant the new methods of big data mining into super-computer "Tianhe-2", in order to open access for scientists and doctors.
我们针对生物医学大数据的特点,构建多组学数据、医学影像、电子病历、公开发表论文等集成的具有进化功能的开放大数据平台;在大数据平台的基础上,开展生物医学大数据挖掘,提出适应生物医学数据特点的大数据深度挖掘、知识获取新算法;通过建立癌症等重大疾病单细胞型,研究癌症不同阶段遗传信息变异与细胞类型转化(医学影像及疾病症状表征的病变细胞)关系,获取癌症等重大疾病关键致病因子及相关调控网络,通过区分癌司机与乘客、比较癌细胞与正常细胞差异,揭示重大疾病发生机制、发展演变过程及药物靶点;通过整合不同类型大数据及相关研究,研究提出重大疾病数字化相关标准。将根据天河二号超级计算机特点,大数据平台及相关研究新方法标准化后移植转化到天河二号超级计算机,实现标准化、通用化的重大疾病的多组学与医学大数据挖掘与分析工具,为针对不同人群重大疾病的个性化医疗和精准用药提供理论和技术。
本项目主要针对重大疾病(肝癌、肾肿瘤)等开展研究,从疾病相关的大分子RNA调控机制,到医学影像等不同层面研究了肝癌、肾囊肿等几种疾病。具体研究内容包括:肝癌相关的环状RNAs及与肝癌的调控关系研究。建立了一个癌细胞相关数据库(CCRDB)。通过对肝细胞癌(HCC)患者的实验数据进行测序收集,共发现11501个circRNAs,我们进一步研究了circRNAs与肝癌的关系,发现肝癌潜在的生物标记靶点。结果表明,CCRDB能有效揭示circRNAs与肝癌的关系。提出了一种基于关联数据计算circRNA与疾病嵌入向量的实体关系网络 Entity Relation Network (ERN) 模型,并采用Pseudo-Siamese网络进行数据分析。实体关系网络可以从数据中提取更深层次的语义信息。该模型在circRNA和疾病关联分析中取得了令人满意的效果。研究如何基于卷积神经网络(CNN)与支持向量回归(SVR),提出新的模型预测CRISPR/Cas9系统sgRNA的切割活性,进而提高基因编辑预测准确率。项目使用深度学习算法对复杂性肾囊肿良、恶性CT图像分类。从理论上建立了复杂性肾囊肿CT图像标注与识别率关系,提出获得几乎不降低识别率的CT图像(包括视频流)最低标注帧采样原则。根据这一原则,可以大大降低识别图像的标注数量,节省人力、物力。本项目共完成11篇学术论文,其中SCI 9篇,申请发明专利21项。论文及专利主要集中于肝癌、肾囊肿CT图像及泛癌的形成机理等,对揭示肿瘤形成及治疗具有一定借鉴意义。项目执行期间,共培养硕、博士40名,已顺利毕业27名(论文封面见附件),在读13名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
论大数据环境对情报学发展的影响
跨社交网络用户对齐技术综述
硬件木马:关键问题研究进展及新动向
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于异构医学影像数据的深度挖掘技术及中枢神经系统重大疾病的精准预测
基于脊椎疾病的医学图像数据挖掘技术和可视化研究
生物医学文本大数据中的疾病关系并行挖掘模型研究
基于多组学数据的癌症驱动模块网络挖掘方法研究