基于新一代测序数据的非比对统计功效的研究

基本信息
批准号:11205061
项目类别:青年科学基金项目
资助金额:22.00
负责人:刘雪梅
学科分类:
依托单位:华南理工大学
批准年份:2012
结题年份:2015
起止时间:2013-01-01 - 2015-12-31
项目状态: 已结题
项目参与者:黄晓东,谢汇章,张玉霞,燕晶,周颖
关键词:
模体非比对方法统计功效隐马尔科夫模型
结项摘要

The identification of transcription factor binding sites and detecting horizontally transferred genes between different organisms are the central problems in biological studies. Many computational and experimental methods have been developed to detect TFBS and HTG. However, the studies of the statistical power of these methods in detecting them are relatively rare except for some simulation studies. And the statistical analysis of the error will affect the reliability of the evolutionary tree constructed. We will carry out this study based on D2 statistic. (1) We will develop Background sequences with a high order Markov process using a hidden Markov model; By the Bernoulli distribution, we build an alternative model to study the power of the statistic under two situations by giving both theoretical results and illustrating them by simulations. (2) We will develop a new alignment-free sequence comparison based on NGS data and study their power. We hope that there is an approximate rate extremum, when the length of sequences tends to infinite the power close to 1. (3) From study the relation between statistic and evolutionary distance, we can construct evolutionary trees. The study in the homologous sequence analysis and the evolutionary tree constructed has a certain value and it can help to provide a reliable theoretical basis for the biological species classification.

转录因子结合位点的识别及基因水平转移的预测是目前生物学研究的核心问题。目前已有许多非比对统计方法来计算及用实验的方法来解决这两个问题。然而,在这些方法中,除过一些模拟研究以外,用统计值的统计功效方法来研究该问题尤其少,而统计分析的误差将影响到所构建演化树的可靠性。本项目将在基于非比对D2统计值的基础上展开以下研究。(1)建立背景序列为高阶马尔可夫过程的隐马尔可夫模型;通过Bernoulli分布建立一种转换模型来研究两种情况下统计功效的分布情况,并通过模拟给出两种理论结果和图解。(2)开发适用于NGS 数据比较的非比对方法并研究其统计功效,期望有个近似统计极值,其统计功效在序列长度趋于无穷大时快速接近于1。(3)通过研究统计值与演化距离的关系,构建演化树。该研究在同源序列分析、基因水平转移及系统演化树构造等领域具有一定的应用价值,可为生物学物种分类提供可靠的理论依据。

项目摘要

转录因子结合位点的识别与一组转录因子的调控区域(顺式调控模块)的识别,是目前生物学研究的核心问题。目前已有许多计算及实验的方法来测试转录因子结合位点及顺式调控模块。然而,在这些方法中,除过一些模拟研究外,用统计功效的方法来测试转录因子结合位点的研究尤其少。最近sun等发展了一种使用隐马尔可夫模型获得的统计功效研究方法,用该方法来测试转录因子结合位点,并通过模拟给出了两种理论结果和图解并取得阶段性成果。在这些工作的基础上,我们在以下几点展开进一步研究:(一)提出并推导背景序列为高阶马尔可夫过程的隐马尔可夫模型。(二)构建一种基于Bernoulli分布的转换模型来研究转录因子结合位点识别和基因水平转移预测的非比对统计功效。(三)设计并定义新的基于NGS数据的基因组序列的非比对统计值D2*和D2S及其统计功效。重要结果:(一)已经完成了非比对统计功效的算法及软件包。(二)扩展了过去使用过的序列非比对程序(PYTHON语言)包,并可以应用程序包来算各种序列非比对比较。(三)学会从基因数据库CNBI搜寻需要的基因序列数据及使用r语言绘制ROC曲线。(四)应用phylip软件画基因树,进而通过基因树来分析这种序列非比对的优劣势。并一起发表了论文The power study about three statistics ofalignment-free comparison based on AT-rich model, ICMLC, 2015。我们通过理论到实际来验证这种新的统计功效的显著性,并同时发展一种自动计算统计功效的软件包,为基因组测序提供更有利的理论基础。该研究有助于了解物种进化过程,为生物学物种分类提供可靠的理论依据。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

粗颗粒土的静止土压力系数非线性分析与计算方法

粗颗粒土的静止土压力系数非线性分析与计算方法

DOI:10.16285/j.rsm.2019.1280
发表时间:2019
2

中国参与全球价值链的环境效应分析

中国参与全球价值链的环境效应分析

DOI:10.12062/cpre.20181019
发表时间:2019
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020

刘雪梅的其他基金

批准号:51508294
批准年份:2015
资助金额:20.00
项目类别:青年科学基金项目
批准号:81202683
批准年份:2012
资助金额:23.00
项目类别:青年科学基金项目
批准号:81560456
批准年份:2015
资助金额:37.00
项目类别:地区科学基金项目
批准号:81603694
批准年份:2016
资助金额:18.00
项目类别:青年科学基金项目
批准号:30300067
批准年份:2003
资助金额:20.00
项目类别:青年科学基金项目
批准号:41867020
批准年份:2018
资助金额:40.00
项目类别:地区科学基金项目
批准号:81860103
批准年份:2018
资助金额:35.00
项目类别:地区科学基金项目
批准号:11701558
批准年份:2017
资助金额:21.00
项目类别:青年科学基金项目
批准号:31100449
批准年份:2011
资助金额:23.00
项目类别:青年科学基金项目
批准号:81601276
批准年份:2016
资助金额:17.50
项目类别:青年科学基金项目

相似国自然基金

1

基于新一代高通量测序数据的若干统计方法学研究

批准号:11771096
批准年份:2017
负责人:张洪
学科分类:A0403
资助金额:48.00
项目类别:面上项目
2

基于新一代测序数据的标准化,FDR控制及分类问题的统计方法研究

批准号:11701385
批准年份:2017
负责人:周彦
学科分类:A0402
资助金额:24.00
项目类别:青年科学基金项目
3

新一代测序技术宏基因组数据分析的统计算法研究与应用

批准号:61370131
批准年份:2013
负责人:艾冬梅
学科分类:F0213
资助金额:73.00
项目类别:面上项目
4

基于新一代测序数据的顺式调控模体预测与分析

批准号:61772313
批准年份:2017
负责人:刘丙强
学科分类:F0213
资助金额:63.00
项目类别:面上项目