Human Endogenous Retroviruses (HERV) is the remnants of ancient retroviral infections to the human genome, which has experienced a long-term genetic variation since millions of years ago and is associated with the occurrence and development of human diseases, especially cancer. Although the carcinogenic mechanism of HERV is not very clear, it is widely believed that several cis-acting elements in HERV, such as promoter and PolyA signal, are involved in the regulation of their nearby genes, and that has been regarded as one of the important reasons for aberrant gene expression. This application is devoted to the prediction of promoter and PolyA signal in HERV and analysis on their relationship with aberrant gene expression from a perspective of bioinformatics. Based on the breakthrough about methods of feature selection and unbalanced data classification encountered in high-dimensional biological data processing, the weighted classifier and conditional random field are proposed to identify the promoter and PolyA signal in HERV respectively, and gene expression profile and co-expression network will be combined to analyze the relationship between the two types of cis-acting elements and aberrant gene expression. By the prediction and analysis of promoter and PolyA signal in HERV, the application aims to provide theoretical support for revelation of the mechanism of HERV in the development of cancer.
人内源性逆转录病毒(HERV)是几百万年前逆转录病毒整合到人类基因组中经过长期遗传变异后形成的残余物,与人类疾病尤其是癌症的发生和发展相关联。虽然对HERV的准确致癌机制尚不清楚,但研究普遍认为,HERV中的启动子和PolyA信号等顺式作用元件参与了其附近基因的调控,是导致基因异常表达的重要原因之一。本申请拟从生物信息学角度,对HERV中启动子和PolyA信号的识别及其与基因异常表达之间的关系展开研究。在突破高维生物数据处理中特征评估选择和非平衡数据分类方法的基础上,拟采用加权分类器和条件随机场模型对HERV中的启动子和PolyA信号进行建模识别,提出结合基因表达谱和共表达网络对此两类顺式作用元件与基因异常表达之间的关系进行分析。通过对HERV中启动子和PolyA信号的建模、预测和分析,以期为揭示HERV在癌症发生发展中的作用机理研究提供理论支持。
人内源性逆转录病毒(Human Endogenous Retrovirus,HERV)是几百万年前逆转录病毒整合到人类基因组中经过长期遗传变异后形成的残余物,约占人类基因组总量的8%。具备典型完整结构的HERV由左右两端的长末端重复序列(Long Terminal Repeat,LTR)和中间的结构基因构成。研究表明,LTR中的启动子和多聚腺苷化PolyA信号等顺式作用元件参与了其附近基因的表达调控,与人类疾病尤其是癌症的发生和发展相关联。三年来,项目组团队基本按照原计划对HERV序列结构及其中顺式作用元件在基因表达调控中的作用展开探索研究。研究联合特征的有效性估和选择方法,为后续序列特征分析和建模识别工作提供方法支撑;研究HERV序列结构保守特征及建模识别方法,包括LTR中的启动子和PolyA信号,以及结构基因中的基质蛋白MA和跨膜蛋白TR;根据最新研究发展动态,引入高通量染色体构象捕获技术Hi-C,结合传统RNA-seq和Chip-seq数据,在三维结构空间中分析HERV中顺式作用元件与基因异常表达之间的关系。在研究工作的推进过程中,共累积整理了118个家族的94,671条HERV序列数据,设计开发出可用于HERV数据分析的系列方法、模型和软件,包括特征空间优化效果优于经典算法的一种新的过滤式特征选择方法,HERV中PolyA信号、MA和TR识别模型,以及Hi-C数据标准化方法和拓扑相关域边界点识别方法,借助开发出的软件工具,完成了HERV及多种外源性逆转录病毒序列的注释。在此基础上,发表与本项目相关的生物信息学论文7篇,包括SCI期刊论文4篇,中文核心论文1篇,EI会议论文2篇,其中,第一作者或通讯作者论文共计6篇;获与本项目相关软件著作权1项。本项目的实施,加深了对HERV序列结构及其中顺式作用元件在基因表达调控中作用机制的认知,公开发布的数据、方法和软件,有望为该方向研究工作的进一步深入提供支撑,进而从基因组水平探究人类疾病尤其是癌症发生和发展的规律。
{{i.achievement_title}}
数据更新时间:2023-05-31
DeoR家族转录因子PsrB调控黏质沙雷氏菌合成灵菌红素
基于SSVEP 直接脑控机器人方向和速度研究
基于分形维数和支持向量机的串联电弧故障诊断方法
双吸离心泵压力脉动特性数值模拟及试验研究
Himawari-8/AHI红外光谱资料降水信号识别与反演初步应用研究
精神分裂症中HERV-W家族包膜(ERVWE1)基因过表达致突触异常的分子机制研究
DNA序列识别及其基因表达信号分析方法研究
P53基因异常表达与胃癌危险因素关系的研究
HERV env基因异常表达引发急性精神分裂症的分子神经生物学机制研究