集成学习框架下的DNA启动子分类及其甲基化预测研究

基本信息
批准号:31860312
项目类别:地区科学基金项目
资助金额:39.00
负责人:肖绚
学科分类:
依托单位:景德镇陶瓷大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:程翔,许召春,王普,李芳,陈致敏,颜青玲,陈韦捷
关键词:
非平衡分类高通量测序数据集成学习多源信息融合
结项摘要

Promoters are important elements in regulation of the expression. To study the structure and function of a promoter deeply, it is the key to know the gene regulates its transcription and starts its expression. How to predict promoter classes and the DNA methylation site have become the focus of current biological and pharmacological, but there are many problems to determine these information through biological experimental methods, such as high cost, long cycle. With the fast development of biological and information technology, it is possible to make access to different scales and different levels of multi-source biological information based on high-throughput data. The project coordinate utilization of the information reflecting the interaction of the different positions of nucleotide, reflecting the physical and chemical properties of dinucleotides, reflecting the DNA sequence phylogenetic information and the high-throughput sequencing data, combining with the imbalance resample technique based on sequence and feature selection strategy, based on the complementary information provided by the DNA discrete gray model, fuzzy K-nearest neighbor, support vector machine and other pattern recognition algorithms generated the diverse and accurate component learners to further improve the accuracy of the integration of decision-making. We will develop online software system to identify promoter modes and DNA promoter methylation sites then create a database of complete genome annotation of promoters. These researches might promote the development of pattern recognition techniques on imbalanced datasets in bioinformatics and lay the foundation for the construction of a better regulatory network.

启动子是基因表达调控的重要元件,深入研究启动子的结构和功能,是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题,但通过生物实验方法确定这些信息存在很多问题,如成本高、周期长。随着生物技术和信息技术的发展,高通量测序数据的出现使得获取不同尺度、不同层面的多源生物信息成为可能。本项目将融合不同位置碱基的相互影响、碱基对的物理化学属性关系、序列遗传进化信息以及抽取高通量测序数据在基因转录起始位点附近的分布信息,利用基于序列本身的非平衡采样技术、特征选择策略,基于DNA离散灰色模型、模糊K近邻、支持向量机等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度,建立在线启动子模式识别和其甲基化预测软件系统及数据库。项目的研究有助于推进不平衡生物数据挖掘技术的发展和为更好地构建基因调控网络奠定基础。

项目摘要

启动子是基因表达调控的重要元件,深入研究启动子的结构和功能,是理解基因转录调控机制和表达模式的关键。DNA启动子分类和DNA甲基化已成为当前生物学和药理学研究热点问题,但通过生物实验方法确定这些信息存在很多问题,如成本高、周期长。本项目提出了新的基于频率的one-hot编码和基于主成分分析的特征编码方法PCA_PseKNC,这些方法比现有序列特征提取方法相比能更好的提取序列特征,结合独热编码(Onehot)和基于核苷酸的性质和频率方法对启动子样本进行编码,基于堆叠的集成深度学习模型,融合了卷积神经网络、支持向量机、XGBoost 、LightGBM 模型等模式识别算法所提供的有一定差异性和准确度集成学习所需的个体互补信息进一步提高融合决策的精度,建立在线启动子模式识别和其甲基化预测软件系统及数据库。由于TATA-box启动子和强启动子在基因转录过程中发挥重要作用,项目设计了启动子TATA-box类型及强弱启动子类型分类预测器。人类癌症基因组的低甲基化和特定肿瘤抑制基因启动子的高甲基化是癌细胞快速增殖的重要原因,获得5甲基胞嘧啶(5mC)在启动子片段中的分布是进一步了解启动子甲基化与mRNA基因表达调控之间关系的关键步骤,项目设计了融合深度学习算法的启动子甲基化预测器,预测成功率处于国际先进水平。.项目还设计基于DNA甲基化的识别癌症及其类型、多种翻译后修饰位点预测器,提出了CNN-BiLSTM-SVM框架用于抗菌肽多标签功能类型预测等,设计了多种药物-蛋白质结合、药物副作用预测器,这些工作对药物设计都有辅助作用。项目共发表23篇SCI期刊论文,其中中科院SCI二区期刊5篇,授权三项发明专利,2020项目负责人入选美国斯坦福大学颁布的全球前2%顶尖科学奖榜单,2022年“生物序列信息挖掘研究”获得江西省自然科学奖二等奖。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
4

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
5

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022

肖绚的其他基金

批准号:31260273
批准年份:2012
资助金额:50.00
项目类别:地区科学基金项目
批准号:60961003
批准年份:2009
资助金额:18.00
项目类别:地区科学基金项目
批准号:41061020
批准年份:2010
资助金额:26.00
项目类别:地区科学基金项目
批准号:31560316
批准年份:2015
资助金额:40.00
项目类别:地区科学基金项目
批准号:60661003
批准年份:2006
资助金额:24.00
项目类别:地区科学基金项目

相似国自然基金

1

集成学习框架下的荧光素酶抑制剂预测研究

批准号:21607126
批准年份:2016
负责人:陈浮
学科分类:B0601
资助金额:20.00
项目类别:青年科学基金项目
2

集成学习框架下的蛋白质-蛋白质结合位点预测方法研究

批准号:61261027
批准年份:2012
负责人:贾建华
学科分类:F0124
资助金额:45.00
项目类别:地区科学基金项目
3

靶向启动子DNA甲基化新方法的建立及其在研究DNA甲基化调控转录机制中的应用

批准号:31900453
批准年份:2019
负责人:李佳伦
学科分类:C0602
资助金额:24.00
项目类别:青年科学基金项目
4

深度学习结合MR影像异质性的胶质母细胞瘤MGMT启动子甲基化预测研究

批准号:81801655
批准年份:2018
负责人:田强
学科分类:H2701
资助金额:21.00
项目类别:青年科学基金项目