With the progress of structural genomics projects, more and more protein structures have become available, however, the functions of many of them remain unknown. Thus the identification of their functions is an important challenge. Proteins usually function via interacting with other proteins and (or) necleic acids. Especially, protein-DNA interaction plays a central role in almost all aspects of the cell genetic activity. Therefore, given the structure of a protein whose function is unknown, one wishes to answer the following questions:(1) Can this protein bind with DNAs? (2) Is it a dsDNA or ssDNA binding protein(shortened as DSB and SSB repectively)? (3) Where are the DNA-binding sites? (4) What is the specificity of DNA binding? This proposal mainly focuses on questions (2)-(4). Upon different purposes, we first extract the structural, physicochemical, and topological properties et al. to respectively characterize DNA-binding proteins and the binding specificity of DNA sequences for the DNA-binding proteins; then we build models for recognizing DSBs and SSBs, predicting DNA binding residues of a DNA binding protein, and quantifying the DNA binding specificity of a DSB. The research is expected to be helpful of the function annotation of proteins, as well as the understanding of the mechanism of protein-DNA binding.
结构基因组计划产生了大量蛋白质结构数据,其中相当部分功能未知,揭示它们的功能是当前重要任务之一。蛋白质往往通过与其他蛋白质及/或核酸的相互作用行使功能,其中,蛋白质与DNA结合几乎在细胞遗传活动的各方面都起着中心作用。因此,给定蛋白质结构,人们想知道(1)它是否具有和DNA结合的功能?(2)主要是和单链DNA结合还是和双链DNA结合?(3)DNA结合残基(或结合位点)是什么?(4)双链DNA结合蛋白的DNA结合倾向性如何?本项目重点针对(2)-(4)开展研究。针对不同目的,分别从大量蛋白质-DNA相互作用数据中总结出与DNA结合特性及结合机制相关的结构和理化特征,并结合领域知识分别建立单链DNA结合蛋白和双链DNA结合蛋白的区分模型、DNA结合残基预测模型和DNA结合特异性计算模型。研究结果可用于大量蛋白质的功能注释,有助于进一步理解蛋白质与DNA的结合机制。
不同类型的DNA结合蛋白通过与不同类型的DNA结合参与不同的生物学功能,但目前蛋白质数据库中对DNA结合蛋白的进一步精细化的注解信息不足。在为期一年的时间里,本课题以实现对DNA结合蛋白进行更加精准化的注释为问题背景,试图通过计算机方法实现双链DNA(dsDNAs)结合蛋白(简称DSBs)和单链DNA(ssDNAs)结合蛋白(简称SSBs)的自动鉴别。为此,主要研究基于数据库中已经测定的相关蛋白质的三维结构信息建立SSBs与DSBs的区分模型。项目首先收集和整理相关数据与工具,并在此基础上开展两个方面的研究工作:(1) DSBs 和SSBs 的DNA结合界面特征分析与筛选;(2)DSBs 和SSBs的区分模型的建立与评估。. 我们按照计划并紧密结合生物信息学的最新发展,分步骤有序地开展研究,取得预期的成果。经过统计分析,我们从全局和局部两个不同的层面,分别筛选出若干在两类不同蛋白上有显著差异的特征,并基于这些特征构建分类器。实验结果表明这些特征的确有助于有效预测不同类型的DNA结合蛋白。在本项目资助下,课题组邀请法国理工大学的Yanfu Li博士来来华交流1个月。共发表或待刊学术论文9 篇,其中SCI 检索7篇(2篇录用待刊),EI/ISTP 检索6/3篇,应邀撰写书籍章节1章;培养相关研究方向的博士生1名、硕士生3名。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
丙二醛氧化修饰对白鲢肌原纤维蛋白结构性质的影响
PI3K-AKT-mTOR通路对骨肉瘤细胞顺铂耐药性的影响及其机制
An improved extraction method reveals varied DNA content in different parts of the shells of Pacific oysters
DNA\RNA相互结合的蛋白质预测与统计分析
基于自然语言处理技术的DNA结合蛋白质预测
蛋白质结合面残基预测中的特征差异表达和协同作用研究
基于DNase高通测序信息的DNA蛋白结合位点分析