The understandings of biological systems have been deeply enriched by multi-modality measurements, including high-throughput sequencing technology, imaging technology and accumulations of standardized databases. The information from such macroscopic to microcosmic omics measurements provides unprecedented characterization of biological systems in various scales and levels. The current omics data possess four distinct characteristics. It is heterogeneous, highly noised, high dimensional and in large volume. Such characteristics make omics data integration and analysis challenging. The first challenge lies in the insufficiency of analyzing omics data in a systematical way. The second challenge lies in that current methods omit finding local co-modules among omics data. However, the co-modules are significantly important for understanding the relation between phenotype and genotype. To address the challenges above, we are proposing to abstract the omics data processing and aims to find local correlated comodules. The methodology involves in this proposal including tensor representation, tensor matching and tensor decomposition. The ultimate goal is to provide fundamental theory and analysis tool to reveal relationships between phenotype and genotype. The successful accomplishment of the proposal will theoretically promote researches in data integration and analysis for multi-source and heterogeneous data. The findings will enrich and setup blue map in relevant fields such as imaging and social big data, and provide fundamental theory. As for applications, our project can provide direct tools for biomedical data analysis, which is hoping to be widely applied in biomedical fields, such as innovative drug development, precision medicine, and fundamental biology researches.
微观高通量技术、宏观成像技术和各种类型标准化数据库的构建,丰富了生物系统从宏观到微观基因不同水平纵向、不同尺度横向多模态信息,此组学大数据具有很强的异构、高噪音、高维和海量特性,其整合分析面临两个重要挑战:1)缺乏系统性分析研究理论;2)鲜有明确方案寻找数据之间局部公共关联模块,而此关联模块是理解表型-基因型的中心问题。为此,本课题拟将宏观图像到微观基因型多组学数据抽象表达,以此多源、多模态、异构大数据为研究对象,以寻找其公共关联模块为研究目标,建立基于张量表示的公共模块发现分解模型和匹配模型,以期为表型←→基因型理解提供基础性分析理论和使用工具。项目的成功实施在理论上推动多源异构大数据之间的整合分析研究,从而丰富相关领域如图像、社交大数据研究,为其提供基础理论和研究蓝本。在应用上为生物医学大数据分析提供直接分析工具,有望在创新药物研制、临床精准医疗、基础生物研究等领域中得到广泛应用。
本项目的主要研究内容是以多源、多模态的生物信息大数据为研究对象,针对高维、多模态、跨尺度和多源异质的多组学数据,寻找不同尺度或者模态下局部公共网络模块。在本项目的支持下,课题组主要成绩如下:..1. 在应用基础理论研究方面:本人课题组通过构建多个样本的高阶空间关系来定义样本的张量密切度,原创建立张量谱分析理论,突破维数限制,解决小样本高维数据的精确聚类难题;成功应用于肿瘤测序数据分析,实现肿瘤标志物的挖掘和基于医学影像的精准诊断和生存分析;生物医学表达数据具有典型的网络表征特性,具有维度高、异构性强、结构复杂的特点,本人课题组原创建立基于网络表征学习的理论框架,使用谐波基底表示网络数据,在流形空间实现网络的学习,成功应用于脑神经疾病早期诊断和大脑状态意识识别与解码,发现了脑疾病相关的病理传播机制。.2. 在成果转化方面:本人积极推动生物医学数据的人工智能临床应用,建立近万例乳腺钼靶图像数据库,研发其自动诊断系统;建立鼻咽癌图像、基因和临床大数据的在线诊断系统,获得2021年互联网+创新创业大赛金奖。研发产前超声人工智能辅助诊断系统,在产前胎儿的健康状况进行异常检测和孕周预测,助力孵化新型创业公司,获得数千万风险投资,产品应用于50家医院临床试用,预估商业产值10亿。.3. 学术交流合作及人才培养:本人担任十多个国际会议的PC或国际会议主席,主持组织四次国内外。培养硕博研究生44名,指导的硕士生获得国家级奖学金9项,校级或者企业级奖学金47项;博士生多次获得国家公派留学基金支持、国家奖学金、华南理工大学校长奖学金,受邀在国内外做50次邀请报告,其中大会主题报告4次。..总结,在本项目的支持下,近5年以第一/通讯作者发表高水平SCI/EI论文57篇,其中所发表期刊论文IF总和为242.815,IF>5的论文23篇,最高IF 16.389,申请和授权专利共计26项,学术影响力巨大;在小样本学习和网络表征学习方面建立创新原创性理论,实现科研成果转化,效益突出。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
青藏高原狮泉河-拉果错-永珠-嘉黎蛇绿混杂岩带时空结构与构造演化
基于ESO的DGVSCMG双框架伺服系统不匹配 扰动抑制
结核性胸膜炎分子及生化免疫学诊断研究进展
面向公共安全的多源异构数据融合的群体行为分析与挖掘
多源异构生物数据中标志物挖掘和亚型分类的理论与应用
海量多源异构数据的使用授权与鉴权体系研究
海量多源异构数据的使用授权与鉴权体系研究