As core of functional analysis for DNA nucleotides, the importance and imperativeness of analysis of DNA protein binding sites is prominent. As the latest technology in detection of DNA protein binding sites, DNase high throughput sequencing (DNase-Seq) can detect binding sites for all DNA proteins in whole genome at one time, and the resolution can reach one-nucleotide level, which makes it the most advanced technology in detection of DNA protein binding sites so far. However,the existed analysis methods only use DNase-Seq data to recognize DNA protein binding sites.In this project, a novel idea is proposed to further recognize the kinds of these binding sites or the kinds of DNA proteins bound to these binding sites to acquire the whole information, which can be used to dynamically investigate real-time binding status of all kinds of DNA proteins in high resolution. Based on this idea, a novel analysis method would be researched, where through pre-processing of DNase-Seq data, whole inforamtion acquiring and isolating of DNA protein binding sites, by enhancing useful information in DNase-Seq data, binding status of all kinds of DNA proteins in whole genome would be analyzed, which are helpful in dynamically investigating real-time complicated regulation patterns of all kinds of DNA proteins in high resolution, and even the high-level biological regulation mechanisms.
作为DNA碱基代码功能分析的核心,DNA蛋白结合位点分析具有显著的重要性和迫切性。DNase高通测序可一次性在全基因组范围内检测所有种类DNA蛋白结合位点,其分辨率可达单碱基,显著优于现有检测技术。但现有研究尚仅限于利用DNase数据在DNA上对是否是DNA蛋白结合位点进行识别,无法实现上述目的。本课题创新性地提出利用该数据进一步对DNA蛋白结合位点的类别进行识别,即识别结合位点所对应结合蛋白的类别,从而获取完整的DNA蛋白结合位点信息,进而实现一次性在全基因组范围内检测所有种类DNA蛋白结合位点的目的。基于此,本课题研究新分析方法,通过数据预处理、DNA蛋白结合位点完整信息获取、DNA蛋白结合位点分离等研究,在增强有用信息基础上,分析全基因组范围内不同种类DNA蛋白结合位点的结合状态,从而为动态实时高分辨率地分析DNA上各种功能蛋白复杂的调控模式,以及更高层次生物调控机理研究创造条件。
作为DNA碱基代码功能分析的核心,DNA蛋白结合位点分析具有显著的重要性和迫切性。DNase高通测序可一次性在全基因组范围内检测所有种类DNA蛋白结合位点,其分辨率可达单碱基,显著优于现有检测技术。但现有研究尚仅限于利用DNase数据在DNA上对是否是DNA蛋白结合位点进行识别,无法实现上述目的。本项目创新性地提出利用该数据进一步对DNA蛋白结合位点的类别进行识别,即识别结合位点所对应结合蛋白的类别,从而获取完整的DNA蛋白结合位点信息,进而实现一次性在全基因组范围内检测所有种类DNA蛋白结合位点的目的。.本项目首先研究了DNase高通量测序数据的预处理。在常规高通量测序数据预处理基础上,针对DNase剪切酶碱基倾向性导致DNase检测信号存在偏差的问题,提出基于递归神经网络等有效的滤除方法。随后,根据DNA蛋白结合位点所在链和DNase检测信号所在链的各种情况,将DNase检测信号按结合位点正面和背面进行区分,使得识别特征信息加倍。最后,在DNA蛋白结合位点识别过程中,利用GEM与FIMO软件基于ChIP-Seq数据准确获得正样本结合位点,并据此得到结合位点PWM矩阵判定阈值。根据该阈值通过FIMO软件获得DNA蛋白全部候选结合位点,将其中未被发现的结合位点作为负样本。在所有样本上提取DNase剪切信号并进行碱基倾向性校正,构建DNA蛋白结合位点的DNase训练数据。基于该训练数据,先后提出了模板匹配、混合高斯、自动编码器、卷积神经网络等多个识别模型并进行了模型训练,取得了较好的识别效果。实际应用中,先用PWM矩阵对感兴趣区域进行扫描,筛选出可能的DNA蛋白结合位点,再用得到的识别模型进行精确识别。本项目初步基于该方法对基因启动子区进行了DNA蛋白结合位点识别。本项目研究成果可为动态实时高分辨率地分析DNA上各种功能蛋白复杂调控模式,以及更高层次生物调控机理研究创造条件。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
内点最大化与冗余点控制的小型无人机遥感图像配准
氯盐环境下钢筋混凝土梁的黏结试验研究
基于全模式全聚焦方法的裂纹超声成像定量检测
结核性胸膜炎分子及生化免疫学诊断研究进展
基于高通量测序的棉花DNase I 超敏感位点的鉴定与分析
基于结构与序列信息的蛋白质-配体结合位点的预测
基于氨基酸接触能网络的蛋白质结合位点分析
脂多糖结合蛋白功能位点分析及其抑制性多肽的筛选