人类基因组的重新注释和人类转录组的扩充

基本信息
批准号:31240038
项目类别:专项基金项目
资助金额:15.00
负责人:石铁流
学科分类:
依托单位:华东师范大学
批准年份:2012
结题年份:2013
起止时间:2013-01-01 - 2013-12-31
项目状态: 已结题
项目参与者:陈庚,赵琛,吕琦,房元章,卢冰心,杨建明,屈雄飞,史彩萍,李江
关键词:
新一代测序技术转录组人类基因组RNASeq基因注释
结项摘要

Over ten years have passed since the first human genome was draft published. Our results and others show that the human reference genome is far from completed, and many coding fragements are still missed. Meanwhile,the annotation of the genes in the genome is also unfulfilled. Next-generation sequencing technology (NGS) provides unque chance for us to reexplore the human genome, refine the gene structures and redefine the human transcriptome. With the accumulated massive dataset from NGS,including the RNA-Seq data for 38 different human tissues and 500 neuroblastoma patients, we plan to detect those missing fragements from the human reference genome, reannotate related missed genes and characterize the gene new structures, as well as redefine the human trasncriptome. Moreover, we will use the collected MS proteomics data to confirm the new discovered transcripts. Our study will offer rich new resouce for deeper understanding human genome structure and have profounded impact on the human gene function research. At the same time, the refined human genome structure will provide a better reference for other eukaryotic genomes' studies.

尽管人类基因组的测序草图已完成了10多年,但研究表明我们对人类基因组的结构的认识还相当不完善,人类参考基因组中还缺失了很多编码基因的片段,而且基因结构的注释还非常不完整。新一代测序技术为我们更深入地认识人类基因组提供了全新的角度,使得我们能更全面的注释人类基因组的精细结构,确立更完整的转录组。本项目计划利用我们自有的几十个人类不同组织的RNA-Seq数据和500个神经母细胞瘤病人的RNA-Seq数据,并结合公共数据库中的人类RNA-Seq数据重构人类转录组,对人类基因组进行重新注释,补充基因组中缺失的基因,确立新的基因结构。随后,利用我们已有的大量人类蛋白质质谱数据对发现的新转录本进行鉴定。我们的研究对构建完整的人类基因组图谱意义非常重大。也必将促进对人类基因组的深入认识和基因功能的研究。另外,对人类基因组的重新注释及完善将有助于对其它真核生物基因组结构的研究。

项目摘要

人类参考基因组及其基因注释是各种组学研究的基础材料,它们的完整性对于研究的准确性至关重要。我们利用大批量的转录组测序数据探测和注释了人类参考基因组缺失的基因,并且整合研究了多个不同数据库的人类基因注释。使用全基因组比较结合以基因组为参考的拼接策略,我们分别从Celera和HuRef基因组检测到了3.78 Mb和2.37 Mb的转录区域在人类的参考基因组NCBI build 37.2上部分或全部缺失。我们进一步鉴定到了许多新的来自于从头组装的转录本contig不能够匹配到NCBI build 37.2上,但能匹配到Celera、HuRef、黑猩猩、猕猴和小鼠的其中一个基因组上。我们的分析表明这些缺失基因可能是由于基因组的错误组装、转座、拷贝数变异、易位或其他的基因组结构变异造成的。而且,我们的结果暗示这些缺失的基因在人和其他哺乳动物间是保守的,可能具有重要的生物学功能。我们最终从这些缺失基因里共鉴定到了1233蛋白结构域。在另一个工作中,我们发现人类基因注释在RefSeq、Ensembl和AceView中都不完善。虽然Ensembl和AceView比RefSeq注释了更多的基因,但是有超过15800个Ensembl(或AceView)的基因位于AceView(或Ensembl)的基因间区或内含子区域内。RefSeq、Ensembl和AceView的人类基因注释对短序列匹配、基因和转录本表达量计算、差异表达分析有不同的影响。而且,我们发现整合不同数据库的基因能够获得一个更全的基因集,并能显著改善相关转录组学的研究。我们还发现定位到Ensembl和AceView基因上的已知SNP都要比RefSeq多很多。特别地,我们发现在3041个疾病和症状相关的RefSeq基因间区的SNP中有1033个能够重新定位到Ensembl或AceView的基因上。总的来说,我们的工作不仅提供了鉴定基因组缺失基因的策略,还提出了造成基因缺失的原因,强调探测和注释缺失基因的重要性。此外,通过整合不同数据库的基因注释获得一个更完善的转录组能够显著改善相关转录组学和遗传学方面的研究。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

涡度相关技术及其在陆地生态系统通量研究中的应用

涡度相关技术及其在陆地生态系统通量研究中的应用

DOI:10.17521/cjpe.2019.0351
发表时间:2020
2

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素

DOI:10.3969/j.issn.1673-1689.2021.10.004
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

转录组与代谢联合解析红花槭叶片中青素苷变化机制

转录组与代谢联合解析红花槭叶片中青素苷变化机制

DOI:
发表时间:
5

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响

DOI:
发表时间:2020

相似国自然基金

1

人类基因组区段作图和部分测序

批准号:39230220
批准年份:1992
负责人:柴建华
学科分类:C0605
资助金额:76.00
项目类别:重点项目
2

人类基因组中超大基因的鉴定

批准号:30270748
批准年份:2002
负责人:于军
学科分类:C0604
资助金额:20.00
项目类别:面上项目
3

人类基因组中活性基因的定位研究

批准号:38770315
批准年份:1987
负责人:李桂源
学科分类:C0607
资助金额:2.00
项目类别:面上项目
4

人类基因组“北京区域”整合图的建立

批准号:30270725
批准年份:2002
负责人:张秀清
学科分类:C0605
资助金额:19.00
项目类别:面上项目