转录因子结合位点序列基元挖掘的计算方法研究

基本信息

批准号：31571364

项目类别：面上项目

资助金额：63.00

负责人：黄德双

学科分类：

依托单位：同济大学

批准年份：2015

结题年份：2019

起止时间：2016-01-01 - 2019-12-31

项目状态：已结题

项目参与者：李晶晶,朱麟,王刚,计智伟,袁林,何峰,郭伟丽,张宏波,梁贤朋

关键词：

多序列对齐多示例学习基元发现转录调控转录因子结合位点

结项摘要

Transcription factors (TFs) can modulate gene expression patterns and hence are key components of cellular regulatory networks. TFs bind to DNA in a sequence-specific manner. The relative preferences of TFs to various nucleotide sequences are often referred to as TF binding site (TFBS) motifs. These motifs are of considerable interest to biological study, as they are central to understanding the mechanisms of gene expression. In this project, we systematically study the computational methods for the motifs discovery of transcription factor binding sites. Firstly, we propose a discriminative motif finder for discovering high quality initial motifs between two sequence datasets, which uses area under receiver-operating characteristic curve (AUC) as a measure of the discriminating power of motifs and incorporate novel search strategies. Secondly, we propose a new framework for estimating generative probabilistic motif models via a contrasting process, which can provably learn the optimal motif parameter by discriminating the observed binding data from samples from an adaptive noise distribution. Finally, we reformulate the discriminative motif finding problem into a multiple-instance learning framework, thereby more properly modeling the underlying inference problem and facilitating the incorporation of advanced machine learning and optimization tools. The development of this project will promote the understanding of the underlying mechanisms of regulation. It will also help to understand the cells from the system level and explain the pathogenesis of the disease.

转录因子能够调控基因表达的模式，因而是细胞调控网络的关键组成部分之一。转录因子和DNA序列间的结合关系是具有序列偏好性的，转录因子对于不同核苷酸序列的相对结合偏好通常被称为转录因子结合位点基元，由于它们在基因表达机制理解中的核心地位，对于生物学的研究具有极其重要的意义。在本项目中，我们将系统地研究转录因子结合位点基元的计算挖掘方法。首先，提出一种新的判别方法用于在两组序列间寻找高质量的基元初始解，这种方法采用受试者工作特征曲线下面积来判别解的判别能力，并引入了新颖的搜索策略。然后，我们将基元生成模型参数学习问题转化为对比训练过程，从而可以通过将观测数据和人工数据对比，最优地学习模型参数。最后，我们将判别基元模型训练转化为多示例学习问题，从而可以更适当地建模其潜在的推断问题，并方便引入新的机器学习和优化计算工具。本项目的成功实施将有助于认识调控的内在机制,并帮助进一步从系统层次来理解细胞活动

项目摘要

转录因子可以与基因上的调控序列发生绑定，从而激活或抑制目标基因的表达。由于它们在基因表达机制中的核心地位，对于生物学的研究具有极其重要的意义。在本项目中，我们将系统地研究转录因子结合位点基元的计算挖掘方法。首先，提出一种基于受试者工作特征曲线下面积的新型判别方法，并结合新颖的搜索策略用于寻找两组序列间的高质量基元初始解。其次，将基元生成模型参数学习问题转化为对比训练过程，从而可以将观测数据和人工数据进行对比来最优学习模型参数。最后，将基元判别模型转化为多示例学习问题，从空间关系和高阶关系来建模其潜在的推断问题，并引入新的机器学习和优化计算工具。本项目的成功实施将有助于认识基因表达调控的内在机制，并帮助从系统层次来理解细胞活动以及解释疾病的发病机理。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

DOI：10.13609/j.cnki.1000-0313.2022.04.019

发表时间：2022

DOI：10.7641/CTA.2018.70969

发表时间：2018

黄德双的其他基金

批准号：31071168

批准年份：2010

资助金额：35.00

项目类别：面上项目

批准号：60873012

批准年份：2008

资助金额：34.00

项目类别：面上项目

批准号：60472111

批准年份：2004

资助金额：24.00

项目类别：面上项目

批准号：69705001

批准年份：1997

资助金额：12.50

项目类别：青年科学基金项目

批准号：60173050

批准年份：2001

资助金额：17.00

项目类别：面上项目

批准号：61732012

批准年份：2017

资助金额：270.00

项目类别：重点项目

批准号：30570368

批准年份：2005

资助金额：20.00

项目类别：面上项目

批准号：61133010

批准年份：2011

资助金额：280.00

项目类别：重点项目

相似国自然基金

转录因子结合位点(TFBS)研究

批准号：30570425

批准年份：2005

负责人：邓明华

学科分类：C0504

资助金额：28.00

项目类别：面上项目

有约束多项分布转录因子结合位点识别

批准号：60705004

批准年份：2007

负责人：刘立芳

学科分类：F0605

资助金额：20.00

项目类别：青年科学基金项目

原核生物转录因子结合位点的算法预测及应用

批准号：61070095

批准年份：2010

负责人：李国君

学科分类：F0213

资助金额：38.00

项目类别：面上项目

转录因子TDF1结合位点分析及直接调控下游基因鉴定

批准号：30770206

批准年份：2007

负责人：杨仲南

学科分类：C0207

资助金额：30.00

项目类别：面上项目

转录因子结合位点序列基元挖掘的计算方法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

结直肠癌免疫治疗的多模态影像及分子影像评估

具有随机多跳时变时延的多航天器协同编队姿态一致性

黄德双的其他基金

基于多分类器集成及流形学习校准的蛋白质相互作用预测方法研究

面向高复杂异构数据的新的特征提取与分类方法的研究

一种新的先验信息编码的约束学习算法的研究

基于信息熵理论的前馈神经网络分类器结构优化

径向基概率神经网络的遗传选择和优化

基因组非编码区变异与转录因子调控关系的计算分析方法研究

蛋白质远程同源检测中的核方法研究

基于机器学习的蛋白质相互作用与功能预测方法研究

相似国自然基金