Protein post-translational modifications(PTMs) play a very important role in living organisms which make the structure of proteins more complex, the function more perfect, the regulation more specific. Increasing evidences have indicated that abnormal PTMs exist in various major tumour and cancers.Therefore, accurate identifying the PTMs sites in proteins is very important to both cell mechanism and drug development. Experimental identification of PTMs sites with a site-directed mutagenesis strategy is laborious and low-throughput due to the labile nature and the low-abundance of PTMs. In the avalanche of protein sequences generated in the postgenomic age, it is highly desired to develop computational method for timely and reliably identifying the PTMs sites in proteins. In this project we would like to propose the new positive and unlabeled predictive model based on the new feature construct by incorporating the various protein data sources. We will develop the online webserver and offline large-scale data predictive software packages based Linux and Java. We mainly apply the optimization and machine learning approaches to construct the new predict model based on support vector machine and conditional random filed. Furthermore, we will study optimizational theory problems such as model selection. In conclusion this project would supply efficiently computational model and practical software for biologists. Meanwhile this project would promote not only drug discovery research but also the optimizational research.
蛋白质翻译后修饰是一种调节蛋白质功能的重要机制,使蛋白质的功能更为完善, 调节更为精细。最近研究发现蛋白质翻译后修饰与癌症、衰老、心脏病、老年痴呆等许多疾病密切相关,因此准确地识别蛋白质翻译后修饰位点不仅对于更深入地理解各种疾病发生的分子机制,而且对药物设计有重要的帮助。目前,通过实验鉴定这些修饰位点既耗费人力、物力又低产量,甚至对一些蛋白质修饰还很难测定。因此迫切需要开发计算方法来预测蛋白质翻译后修饰位点。本项目主要是研究整合蛋白质各种数据资源信息的新特征表示,进而建立更符合实际问题的部分有监督预测模型,开发在线预测网页及离线大规模数据预测软件包。研究主要采用最优化和机器学习的方法,提出基于支持向量机和条件随机场的新预测模型,并探索其中的模型选择等理论问题。本项目的研究不仅可以为生物学家提供有效的计算模型和实用软件,同时有利于药物研发领域的深入研究,而且还可以丰富最优化领域的研究内容。
本项目在基金的支持下顺利进行并完成任务。项目负责人已第一作者共发表SCI文章11篇,其中高被引文章4篇,最高SCI引用达到85次,累计引用400余次,中科院分区二区文章4篇。蛋白质在合成后需要经过不同的修饰后才能执行功能,因此同一条蛋白经过不同的修饰所行使的功能也不相同。本项目对蛋白质翻译后各种修饰这一具体的实际问题进行了深入的研究并将其提炼成数学中的PU问题来进行研究,包括最新实验数据的获取、蛋白序列预处理及特征的构造。特征构造是这一实际问题的关键所在,本项目根据实际问题的背景和已有的经验,针对不同的修饰类型构造了不同的特征,同时提出了结合特殊位置的氨基酸对次序信息提出新的特征构造方式,并取得了良好的性能。算法上主要基于机器学习中的模型,如支持向量机、K近邻、线性判别、决策树及条件随机场等算法,同时根据具体问题进行了相应的改进,这样得到更符合于实际问题需要的PU模型,进而得到性能更佳的预测器。为方便实验者使用和预测器的推广,本项目基于JAVA和Linux研发了近10个免费在线预测网页和离线软件包,为实际使用提供了平台。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于LASSO-SVMR模型城市生活需水量的预测
基于SSVEP 直接脑控机器人方向和速度研究
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
硫柳汞和苯扎氯铵联合用药的抗真菌协同作用和机制研究及对真菌性角膜炎模型治疗作用和对兔的毒性作用研究
基于多标签学习的蛋白质翻译后修饰位点预测
基于深度学习方法预测蛋白质翻译后修饰位点
蛋白质翻译后修饰位点物种特异性预测的特征抽取和学习算法研究
Tau蛋白翻译后修饰位点预测与修饰机制研究