The rapid and accurate prediction of large-scale protein function is very important to the understanding the secret of the life, elucidating the mechanism of disease, and the drug discovery. With the accelerating growth of protein sequences, and the wide application of Gene Ontology in annotating protein function, the main objective of this project is to develop effective and reliable new algorithms for large-scale protein function prediction, to improve the accuracy of prediction, which can guide the biologists in biochemical experimental verification, and thus provide a better service for the biomedical researchers. The main idea is to develop an accurate algorithm based on machine learning. Firstly, we try to obtain a better representation of protein based on representation learning; Secondly, we will design an efficient algorithm to handle more than 40,000 Gene Ontology terms by multi-label learning; Finally, based on learning to rank, we will try to improve the prediction performance by integrating heterogeneous information sources, different types of representation, and predicting methods. Here are three key scientific problems to solve: (1) how to design a better representation by considering the characteristics of proteins; (2) how to design an efficient predication algorithm by considering the dependency of Gene Ontology terms; 3) How to effectively integrate heterogeneous information sources, different representations and prediction methods.
大规模蛋白质功能的快速、准确预测对于揭示生命奥秘,阐明疾病发生发展机制,研制新药等意义重大。随着蛋白质序列数量加速增长,以及基因本体被广泛地应用于蛋白质功能标注,本项目的主要目标是研究大规模蛋白质功能预测的高效且可靠的新算法,提高预测精度,为进一步的生物学实验验证提供更精准的指导,从而更好地服务于广大生物医学研究人员。本课题以蛋白质的功能预测为研究对象,在机器学习的理论框架指导下,首先设计基于表示学习的算法获得蛋白质的合适表示弥补传统特征抽取方法的不足;然后设计基于多标记学习的算法有效处理高达4万多个基因本体标签的预测;最后设计基于排序学习的算法有机融合多源异构信息、不同特征表示和预测方法,以提高预测精度。拟解决的科学问题包括:(1)如何结合蛋白质分子特点设计合适的特征表示;(2)如何设计考虑不同基因本体标签之间相关性的高效预测算法;(3)如何有效融合多源信息、不同特征表示和预测算法。
随着测序技术的不断发展,目前已经存在两亿多条已知氨基酸序列的蛋白质。了解蛋白质的功能对于揭示生命奥秘、阐明疾病发生发展机制和新药研制等领域有重要意义。但受限于人力、财力等因素,只有不到0.1%的蛋白质具有实验验证的基因本体功能标注。本项目旨在设计大规模蛋白质功能标注高效算法,提高预测精度,为广大生物医学研究人员提供帮助。本项目主要研究内容包括(1)发掘更多同蛋白质功能相关的信息源,设计高效算法处理不同信息源,为蛋白质获得合适的特征表示;(2)基于不同特征表示,研究高效精准的多标记算法来解决大规模蛋白质功能预测问题;(3)研究有效的融合策略,融合不同特征表示,多种预测算法,从而提高标注精度。本项目的重要研究成果包括(1)融合蛋白相互作用网络信息的大规模蛋白质功能预测算法NetGO;它通过借鉴测试蛋白(或其同源蛋白)在网络中邻居的功能标注来提高预测精度。(2)融合文本和序列深度表示信息的蛋白质功能预测方法NetGO 2.0;它通过获取基于蛋白相关文档的深度语义表示以及基于循环神经网络的蛋白序列深度表示来提高预测精度(3)基于图神经网络的跨物种、端对端蛋白质功能预测方法DeepGraphGO;它通过使用图神经网络更有效融合蛋白序列与多个物种的蛋白互作网络信息,基于全连接网络预测蛋白功能,提高预测精度。(4)基于蛋白质语言模型的蛋白质功能标注方法NetGO 3.0;它通过融合蛋白预训练语言模型获取蛋白的深度表示,同时整合不同信息源和多种预测算法,基于排序学习提高预测精度。这些算法不仅在生物信息学的顶级会议或期刊发表,同时也在相关国际竞赛中获得验证。我们还发布了高效的蛋白质功能预测网络平台,为广大生物医学研究人员提供预测服务。除此之外,这些算法的核心思想也可以用来解决其他大规模多标签学习问题,如人类蛋白相关临床表型的预测、大规模生物医学文献的语义标注等。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于多模态信息特征融合的犯罪预测算法研究
基于图挖掘的蛋白质功能预测算法的研究
基于多生物网络的蛋白质功能预测算法研究
面向大规模蛋白质网络功能模块检测的群智能算法研究
面向大规模机器学习的高效优化算法研究