基于高通量测序数据的启动子模式识别及调控功能研究

基本信息
批准号:61601110
项目类别:青年科学基金项目
资助金额:21.00
负责人:赵玉茗
学科分类:
依托单位:东北林业大学
批准年份:2016
结题年份:2019
起止时间:2017-01-01 - 2019-12-31
项目状态: 已结题
项目参与者:汪国华,王嘉男,王芳,黄智强,刘继尧,龙建勇,张鹏
关键词:
高通量数据分析基因转录调控多组学数据融合启动子识别多组学数据挖掘
结项摘要

Promoter is an important region of DNA to regulate the transcription start time and gene expression. With the rapid development of genomics, several special promoters, including alternative, bi-directional and poised promoters, have attracted intensive attention of scientists. They were found to play a role in gene transcriptional regulation in a more complex level. More and more high-throughput data increase the power of bioinformatics by which we can identify these three kinds of promoters in genome-wide, investigate their mechanisms of transcriptional regulation, and further elucidate the biological characteristics of promoters. .This project uses high-throughput sequencing data to develop a representation model of single promoter and bidirectional promoters based on RNA polymerase II ChIP-Seq data. A learning algorithm, which combines Gamma Poisson Mixture Model with parameter optimization algorithm, is proposed to identify alternative promoters, bidirectional promoters and poised promoters of genes. We will study the regulatory mechanisms of transcription factors and non-coding RNAs surrounding promoters by analyzing genomic characteristics of promoters. We will develop a software to identify promoter modes then create a database of complete genome annotation of these three promoter modes. The findings of our study will lead to more comprehensive understanding of gene structures and gene regulation mechanisms.

启动子是基因的一个重要组成部分,控制基因转录的起始时间和表达的程度。随着基因组学的发展,选择性启动子、双向启动子和预备启动子这几类特殊的启动子模式引起了科学家的广泛关注,并被发现在更复杂层面对基因的转录调控起作用。高通量测序数据的出现,为发展生物信息学方法,在全基因组上识别这三类启动子,分析其转录调控机制,从而更好地阐明启动子的生物学特性奠定了基础。.本课题依托高通量测序数据,研究基于RNA聚合酶II ChIP-Seq数据的单启动子与双启动子表示模型;设计Gamma泊松混合模型与参数优化算法相结合的启动子区域学习算法,识别基因的选择性启动子、双向启动子与预备启动子;分析启动子基因组特征,研究启动子周围转录因子及非编码RNA的调控机制;建立启动子模式识别软件系统及数据库,完善基因组中三种启动子模式的注释,为生物学家更全面细致的了解基因结构及调控机制提供有力支持。

项目摘要

基因组转录调控研究一直是后基因组时代主要研究方向和热点,其中染色质状态识别,尤其是启动子、增强子的精确识别对理解基因表达机制非常重要。课题组主要针对基因启动子状态识别问题,根据表达基因的启动子上ChIP-Seq 数据的富集情况,研究基于RNA聚合酶II ChIP-Seq数据的单启动子与双启动子表示模型,设计Gamma泊松混合模型与参数优化算法相结合的启动子区域学习算法。使用该模型在Hela细胞上识别出1326个选择性启动子和526个双向启动子。针对全基因组染色质状态识别问题,课题组选取了多个细胞系(GM12878,K562,MCF7,Hela-s3)的组蛋白修饰数据,通过局部线性嵌入和自编码网络的特征选择方法进行特征表示,并与多种无监督聚类算法进行组合,进行多个细胞系的染色质状态识别。结果表明,局部线性嵌入和自编码网络与K-means相结合的染色质状态识别算法性能较好,识别出正确的启动子,增强子和沉默子。本课题的研究为生物学家更全面细致的了解基因组结构及调控机制提供有力支持。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
4

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
5

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018

赵玉茗的其他基金

相似国自然基金

1

基于高通量测序数据的isomiR功能研究

批准号:61105003
批准年份:2011
负责人:裴云飞
学科分类:F0304
资助金额:23.00
项目类别:青年科学基金项目
2

基于高通量测序数据的长非编码RNA调控网络及在癌症中的应用

批准号:31371320
批准年份:2013
负责人:赵屹
学科分类:C0602
资助金额:60.00
项目类别:面上项目
3

基于高通量测序数据发掘植物长非编码RNA及其调控网络研究

批准号:31371328
批准年份:2013
负责人:陈铭
学科分类:C0602
资助金额:80.00
项目类别:面上项目
4

基于高通量测序数据研究基因组变异的统计问题

批准号:11471022
批准年份:2014
负责人:席瑞斌
学科分类:A0403
资助金额:60.00
项目类别:面上项目