对具有非平衡多标签特性的蛋白质功能类型分类预测研究

基本信息
批准号:61462047
项目类别:地区科学基金项目
资助金额:45.00
负责人:林卫中
学科分类:
依托单位:景德镇陶瓷大学
批准年份:2014
结题年份:2018
起止时间:2015-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:王普,贾建华,李娟,江晓强,闵建亮,邹洪亮,刘子
关键词:
蛋白质功能预测序列特征表示类别属性加权多分类器集成多标签数据灰色重采样非平衡多标签分类
结项摘要

In the life sciences, proteins which have various functions properties often play key roles in the biology process. Furthermore, those proteins have unbalanced quantity distribution in biological databases. It is urgent for us to develop novel models classifying multi-labeled proteins on imbalanced datasets. Firstly, we will study how to represent proteins. Two models will be constructed. One extracts the network and hierarchical structure features of proteins GO (Gene Ontology). And the other draws out the evolutional information from the PSSM (Position Specific Scoring Matrix). Secondly, we will construct the database of subcellular localization and antimicrobial peptides, and provide searching and anlysing tools, respectively. Thirdly, we will research classification algorithm on imbalanced and multi-labeled datasets. we resampple on imbalanced and multi-labeled datasets by using grey incidence analysis, and ensemble various classifiers by weigthing classes' labels. At last, tools to predict subcellular and antimicrobial peptides are developed. These researches will promote the development of biological information mining technology and pattern recognition techniques on imbalanced multi-label datasets.

在生命科学中,那些同时具有多种功能属性的蛋白质往往在生命过程中起着更重要的作用,而在生物数据库中具有这样特性的蛋白质样本的数量分布是极不均衡的,这种情况急需我们开发新的预测模型来处理非平衡多标签数据集下的蛋白质功能预测。本项目将研究蛋白质特征表达模型,通过提取蛋白质基因本体的网络和层次特征,以及基于特异位置打分矩阵的蛋白质演化特征构建两种新型的蛋白质特征表示模型;构建亚细胞定位和抗菌肽功能类型信息数据库,并提供相应的数据检索和分析工具;研究对非平衡多标签数据的分类算法,应用灰色关联空间接近度分析方法构建非平衡多标签数据集的样本重采样技术,利用类别属性加权集成多分类器输出;最终开发亚细胞多标签定位、抗菌肽功能预测等蛋白质功能多标签预测工具。项目的开展有助于推进生物信息挖掘技术的发展,推进对非平衡多标签数据集的模式识别研究工作。

项目摘要

具有多种功能属性的蛋白质在生命过程中起着重要的作用,在蛋白质数据库中不同功能的蛋白质样本数量分不是极不均衡的,因此处理非平衡多标签数据集下的蛋白质功能预测极为重要。项目研究建立模型对非平衡多标签的蛋白质进行功能预测。取得如下进展,一是构建了蛋白质特征表示模型,仅从蛋白质序列出发抽取蛋白质的特征向量;二是构建了一种生成样本模型,能把非平衡多标签数据集转为平衡的多标签数据集,为机器学习算法提供优质的训练集;三是研究了深度学习网络在非平衡多标签数据集中的应用;四是将多标记学习算法应用于抗菌肽活性预测和亚细胞定位预测中;五是开发了多个蛋白质功能预测器。共发表SCI论文8篇,开发高性能预测服务器6个。项目的对生物信息学中在非平衡多标签数据上开展蛋白质功能和结构预测提供了方法和模型,具有积极的意义。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

路基土水分传感器室内标定方法与影响因素分析

路基土水分传感器室内标定方法与影响因素分析

DOI:10.14188/j.1671-8844.2019-03-007
发表时间:2019
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

基于LASSO-SVMR模型城市生活需水量的预测

基于LASSO-SVMR模型城市生活需水量的预测

DOI:10.19679/j.cnki.cjjsjj.2019.0538
发表时间:2019
4

低轨卫星通信信道分配策略

低轨卫星通信信道分配策略

DOI:10.12068/j.issn.1005-3026.2019.06.009
发表时间:2019
5

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

资本品减税对僵尸企业出清的影响——基于东北地区增值税转型的自然实验

DOI:10.14116/j.nkes.2021.03.003
发表时间:2021

林卫中的其他基金

相似国自然基金

1

非平衡分类模式下的蛋白质翻译后修饰位点预测方法研究

批准号:61761023
批准年份:2017
负责人:贾建华
学科分类:F0124
资助金额:37.00
项目类别:地区科学基金项目
2

基于多标签学习的蛋白质翻译后修饰位点预测

批准号:11671032
批准年份:2016
负责人:徐岩
学科分类:A0405
资助金额:48.00
项目类别:面上项目
3

基于多源信息融合的受体和抗菌肽分层多标签分类预测模型研究

批准号:31260273
批准年份:2012
负责人:肖绚
学科分类:C0608
资助金额:50.00
项目类别:地区科学基金项目
4

基于不平衡多标签数据处理技术的蛋白质修饰若干问题研究

批准号:31760315
批准年份:2017
负责人:邱望仁
学科分类:C0609
资助金额:41.00
项目类别:地区科学基金项目