集成学习框架下的DNA启动子分类及其甲基化预测研究

基本信息

批准号：31860312

项目类别：地区科学基金项目

资助金额：39.00

负责人：肖绚

学科分类：

依托单位：景德镇陶瓷大学

批准年份：2018

结题年份：2022

起止时间：2019-01-01 - 2022-12-31

项目状态：已结题

项目参与者：程翔,许召春,王普,李芳,陈致敏,颜青玲,陈韦捷

关键词：

非平衡分类高通量测序数据集成学习多源信息融合人

结项摘要

Promoters are important elements in regulation of the expression. To study the structure and function of a promoter deeply, it is the key to know the gene regulates its transcription and starts its expression. How to predict promoter classes and the DNA methylation site have become the focus of current biological and pharmacological, but there are many problems to determine these information through biological experimental methods, such as high cost, long cycle. With the fast development of biological and information technology, it is possible to make access to different scales and different levels of multi-source biological information based on high-throughput data. The project coordinate utilization of the information reflecting the interaction of the different positions of nucleotide, reflecting the physical and chemical properties of dinucleotides, reflecting the DNA sequence phylogenetic information and the high-throughput sequencing data, combining with the imbalance resample technique based on sequence and feature selection strategy, based on the complementary information provided by the DNA discrete gray model, fuzzy K-nearest neighbor, support vector machine and other pattern recognition algorithms generated the diverse and accurate component learners to further improve the accuracy of the integration of decision-making. We will develop online software system to identify promoter modes and DNA promoter methylation sites then create a database of complete genome annotation of promoters. These researches might promote the development of pattern recognition techniques on imbalanced datasets in bioinformatics and lay the foundation for the construction of a better regulatory network.

启动子是基因表达调控的重要元件，深入研究启动子的结构和功能，是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题，但通过生物实验方法确定这些信息存在很多问题，如成本高、周期长。随着生物技术和信息技术的发展，高通量测序数据的出现使得获取不同尺度、不同层面的多源生物信息成为可能。本项目将融合不同位置碱基的相互影响、碱基对的物理化学属性关系、序列遗传进化信息以及抽取高通量测序数据在基因转录起始位点附近的分布信息，利用基于序列本身的非平衡采样技术、特征选择策略，基于DNA离散灰色模型、模糊K近邻、支持向量机等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度，建立在线启动子模式识别和其甲基化预测软件系统及数据库。项目的研究有助于推进不平衡生物数据挖掘技术的发展和为更好地构建基因调控网络奠定基础。

项目摘要

启动子是基因表达调控的重要元件，深入研究启动子的结构和功能，是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题，但通过生物实验方法确定这些信息存在很多问题，如成本高、周期长。本项目提出了新的基于频率的one-hot编码和基于主成分分析的特征编码方法PCA_PseKNC，这些方法比现有序列特征提取方法相比能更好的提取序列特征，结合独热编码（Onehot）和基于核苷酸的性质和频率方法对启动子样本进行编码，基于堆叠的集成深度学习模型，融合了卷积神经网络、支持向量机、XGBoost 、LightGBM 模型等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度，建立在线启动子模式识别和其甲基化预测软件系统及数据库。由于TATA-box启动子和强启动子在基因转录过程中发挥重要作用，项目设计了启动子TATA-box类型及强弱启动子类型分类预测器。人类癌症基因组的低甲基化和特定肿瘤抑制基因启动子的高甲基化是癌细胞快速增殖的重要原因，获得5甲基胞嘧啶（5mC）在启动子片段中的分布是进一步了解启动子甲基化与mRNA基因表达调控之间关系的关键步骤，项目设计了融合深度学习算法的启动子甲基化预测器，预测成功率处于国际先进水平。.项目还设计基于DNA甲基化的识别癌症及其类型、多种翻译后修饰位点预测器，提出了CNN-BiLSTM-SVM框架用于抗菌肽多标签功能类型预测等，设计了多种药物-蛋白质结合、药物副作用预测器，这些工作对药物设计都有辅助作用。项目共发表23篇SCI期刊论文，其中中科院SCI二区期刊5篇，授权三项发明专利，2020项目负责人入选美国斯坦福大学颁布的全球前2%顶尖科学奖榜单，2022年“生物序列信息挖掘研究”获得江西省自然科学奖二等奖。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2021

DOI：10.13334/j.0258-8013.pcsee.190276

发表时间：2020

DOI：

发表时间：

DOI：

发表时间：2020

肖绚的其他基金

批准号：60961003

批准年份：2009

资助金额：18.00

项目类别：地区科学基金项目

批准号：31260273

批准年份：2012

资助金额：50.00

项目类别：地区科学基金项目

批准号：41061020

批准年份：2010

资助金额：26.00

项目类别：地区科学基金项目

批准号：31560316

批准年份：2015

资助金额：40.00

项目类别：地区科学基金项目

批准号：60661003

批准年份：2006

资助金额：24.00

项目类别：地区科学基金项目

相似国自然基金

集成学习框架下的荧光素酶抑制剂预测研究

批准号：21607126

批准年份：2016

负责人：陈浮

学科分类：B0601

资助金额：20.00

项目类别：青年科学基金项目

集成学习框架下的蛋白质-蛋白质结合位点预测方法研究

批准号：61261027

批准年份：2012

负责人：贾建华

学科分类：F0124

资助金额：45.00

项目类别：地区科学基金项目

靶向启动子DNA甲基化新方法的建立及其在研究DNA甲基化调控转录机制中的应用

批准号：31900453

批准年份：2019

负责人：李佳伦

学科分类：C0602

资助金额：24.00

项目类别：青年科学基金项目

深度学习结合MR影像异质性的胶质母细胞瘤MGMT启动子甲基化预测研究

批准号：81801655

批准年份：2018

负责人：田强

学科分类：H2701

资助金额：21.00

项目类别：青年科学基金项目

集成学习框架下的DNA启动子分类及其甲基化预测研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于铁路客流分配的旅客列车开行方案调整方法

多能耦合三相不平衡主动配电网与输电网交互随机模糊潮流方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

奥希替尼治疗非小细胞肺癌患者的耐药机制研究进展

肖绚的其他基金

基于元胞自动机图的蛋白质序列离散灰色模型及其在药物设计中的应用研究

基于多源信息融合的受体和抗菌肽分层多标签分类预测模型研究

基于符号学的景德镇陶瓷文化景观研究

基于智能计算的蛋白质进化研究

基于粗粒化元胞自动机的生物序列可视化分析与病毒动力学模型研究

相似国自然基金