基于深度学习的蛋白质折叠识别方法研究

基本信息
批准号:61701340
项目类别:青年科学基金项目
资助金额:23.00
负责人:魏乐义
学科分类:
依托单位:天津大学
批准年份:2017
结题年份:2020
起止时间:2018-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:丁漪杰,沈丛,万世想,邢鹏威,徐倩,高科,李朝,江丽敏
关键词:
选择性集成学习深度学习特征选择蛋白质折叠识别机器学习
结项摘要

Recently, machine learning technologies are main methods for sequence-based protein fold recognition. The feature representation is a key factor for the performance of machine learning methods. However, existing feature representations cannot accurately distinguish diverse protein fold types, resulting in the unsatisfactory predictive performance. From the view of machine learning based framework, this project proposes the following four aspects by incorporating deep learning technique to improve the predictive performance: (1) generate high-quality feature representations for protein fold recognition using deep learning model; (2) optimize the feature space using a hierarchical feature selection algorithm; (3) propose a cluster-based selective ensemble classifier to improve the predictive robustness; and, (4) develop an online web server and local program package for protein fold recognition. In this project, we not only develop an effective and efficient computational biology system, but also explore a novel bioinformatics method. Importantly, we establish the relationship between protein sequences, structures, and protein functions, further to provide new ideas and theoretical guidances for any other protein structure prediction problems.

近年来,机器学习方法是目前基于序列识别蛋白质折叠的主要方法。由于机器学习方法需要利用蛋白质向量化后的特征,而目前现有特征表达能力有限,不能很好反映不同折叠间的关系,从而影响方法的识别精度。为了提高方法的识别性能,本项目拟结合深度学习技术,从影响机器学习方法性能的要素出发做了相应改进,分别提出了以下几个研究内容:(1)研究如何利用深度学习模型生成高阶层次化的特征,提升特征表达能力;(2)研究基于层次化的深度特征选择方法对特征空间进行层次优化;(3)研究基于聚类的选择性集成学习算法,提升分类模型的鲁棒性;(4)开发在线的蛋白质折叠预测平台和方法的软件包。通过本项目的研究,不仅开发了一套精准高效的计算生物学系统,还探索了新的生物信息学方法,尤其是从理论上建立了蛋白质序列-结构-功能三者之间对应关系,同时也为其他蛋白质结构预测问题提供新的思路和理论指导。

项目摘要

本项目在执行期间,开展了一系列研究,并取得了如下进展:1)针对蛋白质向量化方法部分,本项目提出了两种不同的特征模型:基于特征表示学习的模型,另一种是迭代特征表示学习模型。这两种方法都达到了当时的最先进水平。2)另外,针对数据维度高、数据量大等问题,本项目提出了集成学习方法来解决,方法在提升准确率与模型的鲁棒性方面做出了很好的成效。3)此外,本项目不仅仅局限于单一问题的研究,而是从方法论上,尝试设计基于序列的通用算法,来解决除了蛋白质折叠结构方面,包括其他蛋白质序列的分析问题,以及基因组的序列以及功能识别问题,从而为新药研发提供了良好支撑。基于以上研究成果,本项目实现了一个完整的基于人工智能的生物序列分析方法流程。在项目执行过程中,项目负责人与主要参与人在国际高水平期刊如Bioinformatics,Briefings in Bioinformatics等发表多篇文章。其中代表性的论文中有多篇ESI高被引论文,表明发表研究成果的重要性。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
2

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
3

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
4

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

居住环境多维剥夺的地理识别及类型划分——以郑州主城区为例

DOI:10.11821/dlyj201810008
发表时间:2018
5

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018

魏乐义的其他基金

相似国自然基金

1

基于深度学习的蛋白质翻译后修饰识别方法研究

批准号:61902337
批准年份:2019
负责人:鲍文正
学科分类:F0213
资助金额:27.00
项目类别:青年科学基金项目
2

基于深度学习的恶意软件早期特征识别方法研究

批准号:61802154
批准年份:2018
负责人:朱会娟
学科分类:F0205
资助金额:24.00
项目类别:青年科学基金项目
3

基于语义资源和深度学习的情感隐喻识别方法研究

批准号:61602079
批准年份:2016
负责人:张冬瑜
学科分类:F0211
资助金额:20.00
项目类别:青年科学基金项目
4

基于深度学习的城市路网交通状态视觉识别方法研究

批准号:51608054
批准年份:2016
负责人:曹倩霞
学科分类:E0804
资助金额:20.00
项目类别:青年科学基金项目