Identifying the functional sequences and clearly expatiating the underlying biological significance are the fundamental goals in genomic analysis. Multiple species comparisons suggest that functional sequences are more conserved than nonfunctional parts, mainly because of the purifying selection acting upon during the evolutionary course. Therefore, the basic work to identify functional elements within large genome sequence data is to find which parts of the genome are evolutionary constrained. The rice genome is one of the most important reference genomes in plant genomic research. With the complete genome sequencing of several important species, the genus Oryza is becoming an ideal research system to estimate the selection constrains on each single base across the genome. In this proposal, under a comparative genomic framework with eight Oryza genomes, we attempt to uncover the sequences under selection constraints across the rice genome, and to identify various functional elements including coding and non-coding elements by different evolutionary signatures.
鉴定具有生物学功能的基因组序列,并阐述其生物学意义是基因组研究的重要目标。多个物种的比较基因组学分析表明,基因组在进化过程中,功能性序列由于受到纯化选择的压力,一般趋向保守。因此,鉴定出受到进化约束的序列是开展基因组功能元件分析的重要基础。水稻基因组是植物基因组研究中的重要参考基因组。稻属多个代表物种基因组测序的完成,为分析水稻基因组保守的功能性序列提供了理想的研究系统。本研究计划旨在利用稻属8个基因组,通过比较基因组学、计算生物学和进化模型相结合,鉴定水稻基因组内受到进化约束的基因组序列,并利用进化印迹特征发现水稻基因组的功能元件。
水稻所在的稻属具有丰富的基因资源,是进行比较基因组学研究的理想系统。利用进化印记对蛋白编码区进行评估和重发现,已被用于酵母、果蝇、人类等类群的研究中,但是在植物类群中尚未开展。随着国际稻属基因组计划的进行,目前约有16个稻属植物完成了全基因组序列测定,使得利用水稻特异的进化印记、对水稻全基因组的蛋白编码区进行重新检索、补充和修正成为可能。.本研究利用国际稻属基因组计划完成的7个AA基因组,1个BB基因组和1个FF基因组的9个稻属物种的全基因组数据,以及假稻属Leersia perrieri的全基因组数据作为外类群进行比对,建立了水稻特异的3个进化印记CRF、RFC和PhyloCSF。对这三个进化印记的单独评估表明,其对水稻编码区和非编码区的辨识灵敏度和特异性均在85%以上。利用获得的水稻特异进化印记,结合单纯依赖序列的切割位点识别算法和RNA-seq潜在切割位点证据,建立了基于半马尔科夫条件随机场的蛋白编码基因预测程序AGARES3。利用自文献筛选的757个“可靠基因”作为训练集,利用AGARES3获得训练参数后,对基因组的蛋白编码基因进行了预测。共发现了新的CDS 5391个,MSU注释既有基因结构受到增加或修补的基因模型有1992个。其中,延长原基因5’方向的新CDS 2174个,影响了原有基因结构644个;延长原基因3’方向新CDS 1010个,影响了原有基因结构483个;连接原有基因结构的新CDS 116个,影响了原有基因结构68个;出现在原内含子区域的CDS 1065个,影响了原有基因结构763个;产生的全新的基因结构452个,包含1026个CDS。利用有翻译证据的蛋白编码基因“uniprot证实基因”集对AGARES3进行生物信息学水平的评估,显示预测的准确率在90%以上。在预测出含有新CDS的基因结构中,随机抽取10个进行RT-PCR的实验验证,正确率为90%。.AGARES3的预测结果影响了水稻全基因组超过5%的原有蛋白编码基因结构,增加了至少1%的全新蛋白编码基因结构,为今后进一步研究水稻蛋白编码基因和非编码转录本,做出了贡献。
{{i.achievement_title}}
数据更新时间:2023-05-31
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
瞬态波位移场计算方法在相控阵声场模拟中的实验验证
长链烯酮的组合特征及其对盐度和母源种属指示意义的研究进展
气力式包衣杂交稻单粒排种器研制
水稻驯化相关miRNA基因的鉴定、分子进化与功能研究
杆状病毒装配元件NAE在基因组加工和压缩包装中的功能鉴定
水稻抗旱有关调节基因的鉴定利用
利用基因组编辑技术提高水稻产量