Accurate detection of genomic structural variation is very important to study mutation mechanistic origins and reveal the relationship between human genetic variation and complex diseases. Existing sequencing-based structural variation discovery methods focus differently and they mainly rely on the types of variants and the features of reads. Furthermore, it is still lack of a 'gold standard' for evaluation of disparate methods. Starting with deep analysis of the state-of-the-art structural variation detection approaches, by making breakthrough in setting up characteristics index system, finding characteristics parameters sensitivity laws, improving ERstd-AdaBoost and Inverse Boosting algorithms, this project finally constructs a theoretical and technological framework for structural variation detection, which consists of an integrated structural variation characterization model based on varieties of discovery theories and a complex network model of high generalization performance adapting to large sample study. This study will propose a new way to understand structural variation classification and have great significance in large-scale genomic structural variation discovery and classification as well as establishment of human structural variation map.
精准检测基因组结构变异,对变异形成机制的研究、揭示人类基因变异与复杂疾病之间的关系非常重要。现有基于测序的结构变异检测方法存在的问题是每种检测方法均有不同的各自侧重点,均依赖于结构变异的类型或者序列片段的特性,而且对各种检测方法的评价没有公认的金标准。本项目以现有的结构变异检测方法深度分析为出发点,重点研究融合多种检测理论的结构变异综合表征和适应大样本学习的高泛化性能复杂网络模型,突破特征指标体系、特征参数敏感性规律、学习训练样本集、基于争议度的AdaBoost权值调整策略和神经网络逆向权值调整策略等关键技术,建立一套先进的基因组结构变异综合检测的理论与技术体系。本项目的研究结果将有利于对基因结构变异分类产生新的认识,在基因组水平进行大规模的结构变异发现、识别结构变异类型、建立人类的结构变异图谱资源方面具有十分积极的意义。
本项目的研究目标是:融合多种检测理论的综合检测策略,获得高泛化性能的精准检测模型。关键问题有两个:科学问题一,基因组结构变异特征提取与表达,形成变异综合表征;科学问题二,适合基因测序数据检测的高泛化性能复杂网络模型。在四年的项目执行期间,对这个两个关键科学问题进行了充分的研究,取得了突破性的研究成果,较好地完成了既定目标。.针对科学问题一的研究工作:①基于仿真数据的缺失变异特征挖掘研究;②基于真实数据的人类基因组缺失变异综合表征研究并形成特征指标体系。.取得的研究成果是:①根据RP、SR、RD三类检测方法的基本原理,充分利用配对末端测序序列初次映射和二次分裂比对的两次比对结果,分析并挖掘提取了16个与缺失变异相关的序列特征;②基于真实数据的缺失变异综合表征研究并形成特征指标体系。基于双末端测序片段映射分析、测序片段分裂比对和测序片段映射深度分布分析三种缺失变异检测理论分别挖掘提取到了8、24和4个序列特征,此外,对缺失变异区域及上下游区域的序列基本情况进行总结,挖掘提取了13个序列特征。共计得到49个缺失变异的序列特征,形成基因组缺失变异综合表征指标体系。.针对第二个科学问题的研究工作:①基于AdaBoost算法的基因组缺失变异综合检测方法研究;②基于SVM模型的缺失变异检测的研究,以及其他机器学习模型最近邻KNN算法、随机森林算法、GBDT迭代的决策树算法、分类回归树算法等,对其检测的有效性进行了验证;③基于现今流行的深度学习卷积神经网络模型检测缺失变异进行了研究等。.取得的研究成果是:基于仿真数据提出了一种将RP、SR、RD三类检测理论和AdaBoost有机融合的基因组缺失变异综合检测策略;基于人类基因组真实数据提出的缺失变异集成检测方法,给出了集成检测的总体流程;基于现今流行的深度学习卷积神经网络模型检测缺失变异已经取得了初步研究成果。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
粗颗粒土的静止土压力系数非线性分析与计算方法
中国参与全球价值链的环境效应分析
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于Nanopore测序和多源数据融合策略的基因组大型结构变异检测方法研究
基于三代测序校正序列的基因组结构变异检测方法研究
基于多传感器数据融合的结构损伤检测新方法
基于家系基因组测序数据的拷贝数变异检测方法研究