Study on protein-protein interaction (PPI) will be helpful for people to understand the nature of life and the rules of life activities. However, the high false positive and false negative "noise", and highly incompleteness which exists in current PPI data put a big constraint for the development of this research area. Aiming at this bottleneck constraints, this project will start from the network topology structrue, and study deeply in the PPI data quality control and unkown PPI prediction. Firstly, we will integrate different PPI databases and fuse related biolofical information sources into protein-protein interactions. Secondly, the original PPI network will be transform into a new intrinsic low-dimensional metric space, and a data quality control model will be constructed based on new measurement design. Thirdly, we will study vectorization method for network multiple-node subnetworks and predict PPIs based local clustering. Finally, a prediction and analysis platform will be established for hepatocellular carcinoma, which is a complicated disease with hign incidence in China. The research results achieved in this project will deepen our understanding of the mechanism of PPIs, and provide theortical basis for understanding protein functions, determinating key proteins and pathogenic sub-networks, and improving the direction of drug design.
对蛋白质相互作用的研究有助于人们更加深入地理解生命现象的本质,阐明生命活动的基本规律。但现有蛋白质相互作用数据假阳性、假阴性"噪声"过高和高度不完整性制约了该研究领域的发展。针对这个瓶颈问题,本项目拟从网络拓扑结构特征出发,在蛋白质相互作用的原始数据质量控制和未知相互作用预测方面进行深入研究。首先,我们对现有蛋白质相互作用数据进行数据整合,并对能印证蛋白质相互作用的相关生物信息源进行融合;其次,利用空间变换方法将原始网络映射到新的内在低维度量空间,设计测度算子,建立蛋白质相互作用数据的质量控制模型;再次,研究网络多元子结构的矢量化表达方法,基于网络局部聚集特性建立蛋白质相互作用预测模型;然后,针对肝癌这一我国高发性复杂疾病,建立预测分析平台。本项目的研究成果将加深对蛋白质相互作用机理的认识,从而为理解蛋白质功能、确定疾病关键蛋白和致病子网络、提高药物设计针对性提供理论依据。
本项目主要从计算的角度对蛋白质相互作用进行研究。蛋白质相互作用在生命活动中具有重要地位,很多生物学功能的实现都是通过蛋白质相互作用来实现的,对其进行研究有助于人们更加深入地理解生命现象的本质,阐明生命活动的基本规律。但现有蛋白质相互作用数据假阳性、假阴性“噪声”过高和高度不完整性制约了该研究领域的发展。针对这个瓶颈问题,本项目结合蛋白质序列、结构与网络信息,在蛋白质相互作用的原始数据质量控制、相互作用位点预测、蛋白质-配体结合点等方面进行深入研究。首先,我们对现有蛋白质相互作用数据进行数据整合,构建了两个数据库,即人类疾病相关蛋白-配体结构数据库dbHDPLS和突变蛋白相互作用的动力学和热力学数据库dbMPIKT,对能印证蛋白质相互作用的相关生物信息源进行融合。其次,对蛋白质相互作用及其作用位点进行了多角度多层次的预测研究,构建了一个基于序列信息的动态集成学习系统,实现了仅利用序列信息来对蛋白质-配体结合位点进行预测;提出了一种仅利用氨基酸序列特征和相对可及表面积预测热点残基(Hot Spot)的集成学习方法,在ASEdb数据集上的F1得到0.92、MCC值为0.87的较好性能;构建了蛋白质热点残基的随机投影集成预测系统。最后对人类疾病相关的预测分析及其相关研究进行了探索,构建了一个两阶段的轻度认知功能障碍分类系统,基于支持向量机(SVM)算法,通过MRI、FDG-PET和CSF三种形式的生物标记来区分MCI和健康样本;发展一种基于非负矩阵因子分解(NMF)的特征选择方法(NMFBFS),实现肝细胞癌关键临床症状特征的选择,得到具有39个临床特征的最优特征子集;构建了全二维气相色谱-飞行时间质谱中第二维保留指数的回归计算模型,提高实验中小分子的定性定量分析能力。本项目的研究成果加深了对蛋白质相互作用机理的认识,从而为理解蛋白质功能、确定疾病关键蛋白和致病子网络、提高药物设计针对性提供理论依据。
{{i.achievement_title}}
数据更新时间:2023-05-31
演化经济地理学视角下的产业结构演替与分叉研究评述
跨社交网络用户对齐技术综述
基于LASSO-SVMR模型城市生活需水量的预测
基于多模态信息特征融合的犯罪预测算法研究
端壁抽吸控制下攻角对压气机叶栅叶尖 泄漏流动的影响
基于网络拓扑结构信息与数据整合的蛋白质相互作用可信度评估方法研究
人工神经网络控制与预测棉纱质量研究
基于结构域组成变换的蛋白质相互作用预测方法研究
基于机器学习的蛋白质相互作用与功能预测方法研究