The interaction between proteins and nucleic acids is one of the central issues in molecular biology researches and an important part of many life activities. Especially, the specific recognition of small RNAs by proteins in the process of RNA interference is in charge of many important life activities and disease processes, and is the focus of today's life science researches. The identification of nucleic acid - binding sites in proteins is an important way of understanding the mechanism of protein - nucleic acid interaction, and has important significance for understanding the related biological processes, the related diseases and their treatment, and protein functions and drug researches. In this project, the mechanism of specific recognition of small RNAs by proteins will be analyzed from structural data by combining mathematical and statistical methods with feature selection methods, and new methods will be developed for predicting DNA/RNA-binding sites from the protein sequences, and novel classifiers will be designed to recognize small RNA-binding sites based on semi-supervised machine learning methods. Moreover, the ideal methods for predicting binding sites in proteins will be reached by introducing the propensity information about physico-chemical properties and structures in the binding domains, and by picking up excellent feature subsets using feature selection methods, and by solving class-imbalance and cost-sensitive issues, and by constructing web servers. The expected contributions of this project are to provide new ways to study protein - nucleic acid interactions comprehensively, and new impulses to develop protein functional site prediction researches and machine learning techniques.
蛋白质-核酸相互作用是分子生物学研究的中心问题之一,是许多生命活动的重要组成部分。尤其是,small RNA在RNA干扰过程中通过与蛋白质特异性结合调控着细胞内许多重要的生命活动和疾病发生过程,更是当今生命科学的研究热点。而识别核酸-结合氨基酸位点是认识蛋白质-核酸相互作用机制的重要途径。本项目拟将数学统计方法和特征选取方法结合起来,从结构上分析蛋白质与small RNA特异性相互作用机制;发展基于序列的DNA/RNA-结合位点预测新方法,和引入半监督学习思想发展特异性的small RNA-结合位点预测方法。在发展结合位点预测方法时,引入结合区域的物化特性及结构偏好性信息,利用特征选取方法筛选特征,解决样本类不平衡和代价敏感问题,建立在线预测平台。项目完成后,将为系统研究蛋白质-核酸相互作用提供新方法,并将推进蛋白质其它功能位点的预测研究和机器学习技术的发展。
本研究设计了多种新型的机器学习方法对蛋白质的功能和核酸作用的功能位点的预测进行了研究。主要结果包括:(1)使用代价敏感的支持向量机的方法,预测基于序列的small RNA与蛋白质结合位点, 解决样本类不平衡和代价敏感问题,建立small RNA-结合位点在线预测平台SARS;(2)使用半监督支持向量机加上混合特征的方法,识别蛋白质上的microRNA-结合位点,建立专门的microRNA-结合位点在线预测平台MBindR;(3)使用支持向量机的方法,基于序列信息,预测DNA蛋白质结合位点;(4)项目申请人发现,蛋白质功能预测问题本质上是一个多示例多标记学习问题,并设计新的多示例多标记学习算法预测蛋白质的功能。(5)在蛋白质功能的预测中,很多蛋白质的功能注释是不完全的。项目申请人发现, 这个可以抽象为弱标记多示例多标记学习问题,并设计了模型进行预测。(6)设计了新型机器学习方法En-MLKNN设计并把它应用于文本分类。(7)提出了第一种可以有效应用于海量宏基因组功能预测的学习框架HashMLL。(8)设计了基于海明距离的局部敏感哈希算法的新型机器学习算法。项目的完成,为系统研究蛋白质蛋白质功能及功能位点预测提供新方法,并推进了机器学习技术的发展。
{{i.achievement_title}}
数据更新时间:2023-05-31
农超对接模式中利益分配问题研究
主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究
内点最大化与冗余点控制的小型无人机遥感图像配准
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
基于几何算法与机器学习的反向配体结合位点预测
高通量核酸、配体、蛋白质结合位点的差异性分析与特异化预测
基于氨基酸接触能网络的蛋白质结合位点分析
基于深度学习方法预测蛋白质翻译后修饰位点