Promoters are important elements in regulation of the expression. To study the structure and function of a promoter deeply, it is the key to know the gene regulates its transcription and starts its expression. How to predict promoter classes and the DNA methylation site have become the focus of current biological and pharmacological, but there are many problems to determine these information through biological experimental methods, such as high cost, long cycle. With the fast development of biological and information technology, it is possible to make access to different scales and different levels of multi-source biological information based on high-throughput data. The project coordinate utilization of the information reflecting the interaction of the different positions of nucleotide, reflecting the physical and chemical properties of dinucleotides, reflecting the DNA sequence phylogenetic information and the high-throughput sequencing data, combining with the imbalance resample technique based on sequence and feature selection strategy, based on the complementary information provided by the DNA discrete gray model, fuzzy K-nearest neighbor, support vector machine and other pattern recognition algorithms generated the diverse and accurate component learners to further improve the accuracy of the integration of decision-making. We will develop online software system to identify promoter modes and DNA promoter methylation sites then create a database of complete genome annotation of promoters. These researches might promote the development of pattern recognition techniques on imbalanced datasets in bioinformatics and lay the foundation for the construction of a better regulatory network.
启动子是基因表达调控的重要元件,深入研究启动子的结构和功能,是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题,但通过生物实验方法确定这些信息存在很多问题,如成本高、周期长。随着生物技术和信息技术的发展,高通量测序数据的出现使得获取不同尺度、不同层面的多源生物信息成为可能。本项目将融合不同位置碱基的相互影响、碱基对的物理化学属性关系、序列遗传进化信息以及抽取高通量测序数据在基因转录起始位点附近的分布信息,利用基于序列本身的非平衡采样技术、特征选择策略,基于DNA离散灰色模型、模糊K近邻、支持向量机等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度,建立在线启动子模式识别和其甲基化预测软件系统及数据库。项目的研究有助于推进不平衡生物数据挖掘技术的发展和为更好地构建基因调控网络奠定基础。
启动子是基因表达调控的重要元件,深入研究启动子的结构和功能,是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题,但通过生物实验方法确定这些信息存在很多问题,如成本高、周期长。本项目提出了新的基于频率的one-hot编码和基于主成分分析的特征编码方法PCA_PseKNC,这些方法比现有序列特征提取方法相比能更好的提取序列特征,结合独热编码(Onehot)和基于核苷酸的性质和频率方法对启动子样本进行编码,基于堆叠的集成深度学习模型,融合了卷积神经网络、支持向量机、XGBoost 、LightGBM 模型等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度,建立在线启动子模式识别和其甲基化预测软件系统及数据库。由于TATA-box启动子和强启动子在基因转录过程中发挥重要作用,项目设计了启动子TATA-box类型及强弱启动子类型分类预测器。人类癌症基因组的低甲基化和特定肿瘤抑制基因启动子的高甲基化是癌细胞快速增殖的重要原因,获得5甲基胞嘧啶(5mC)在启动子片段中的分布是进一步了解启动子甲基化与mRNA基因表达调控之间关系的关键步骤,项目设计了融合深度学习算法的启动子甲基化预测器,预测成功率处于国际先进水平。.项目还设计基于DNA甲基化的识别癌症及其类型、多种翻译后修饰位点预测器,提出了CNN-BiLSTM-SVM框架用于抗菌肽多标签功能类型预测等,设计了多种药物-蛋白质结合、药物副作用预测器,这些工作对药物设计都有辅助作用。项目共发表23篇SCI期刊论文,其中中科院SCI二区期刊5篇,授权三项发明专利,2020项目负责人入选美国斯坦福大学颁布的全球前2%顶尖科学奖榜单,2022年“生物序列信息挖掘研究”获得江西省自然科学奖二等奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于SSVEP 直接脑控机器人方向和速度研究
低轨卫星通信信道分配策略
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
集成学习框架下的荧光素酶抑制剂预测研究
集成学习框架下的蛋白质-蛋白质结合位点预测方法研究
靶向启动子DNA甲基化新方法的建立及其在研究DNA甲基化调控转录机制中的应用
深度学习结合MR影像异质性的胶质母细胞瘤MGMT启动子甲基化预测研究