蛋白质相互作用预测的集成学习方法研究

基本信息
批准号:61300128
项目类别:青年科学基金项目
资助金额:25.00
负责人:曹智
学科分类:
依托单位:湖南大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:朱雯,李小英,杨圣洪,李波,彭丽红,彭玲,邓密密
关键词:
蛋白质序列特征表示蛋白质相互作用流形学习集成学习
结项摘要

Protein is the direct performer of biological function, and protein interaction is the foundation of all cell metabolic actives, so protein interaction becomes a hot topic in current proteome studies. The solution of this problem can lay the foundation for the analysis of the protein function, the exploration of life development and the development of drugs. This project will be based on the characteristics of protein sequence, by building a standard protein-protein interaction data set, to predict and evaluate protein-protein interactions and finally construct a high quality protein interaction network which can be used to discover essensial genes、drug targets、complexes and functional modules: According to the physicochemical properties of amino acids, based on the classification of 20 kinds amino acids, combined with distance frequency, LZ complexity, characteristics of the character frequency characteristics and the character position to obtain the eigenvalue of protein sequence information, and then effectively extract the protein sequence information; chooseing the positive samples based on multiple protein interaction datasets,and choosing the negative samples based on our proposed method,then constructing a standard protein-protein interaction dataset; to ensure the accuarcy and extensive ability,the meta learning structure is proposed based on random space and feature mapping; to filter the false positives and false negatives of predict results, assess the protein interactions based on manifold learning.

蛋白质是生物功能的直接执行者,而蛋白质相互作用是细胞进行一切代谢活动的基础,因此,蛋白质相互作用成为了当前蛋白质组研究的一个热点。这个问题的解决能够为蛋白质功能的分析、生命发育的探索、有效药物的开发等提供基础。本项目将以蛋白质序列特征为基础,通过构建蛋白质相互作用标准数据集,预测并评估蛋白质相互作用,最终将构建高质量的蛋白质相互作用网络,用于识别关键基因、药靶及发现复合物和功能模块等应用:根据氨基酸的理化性质,基于模糊理论对20种氨基酸分类,在分类的基础上结合距离频率、L-Z 复杂度、字符频率特征和字符位置特征来获取蛋白质序列信息的特征值,有效提取蛋白质序列信息;根据多个蛋白质相互作用数据库筛选正样本,设计负样本筛选算法,进而构建蛋白质相互作用标准数据集;基于随机子空间和特征映射的集成学习框架,保证预测模型的准确性、泛化能力;基于流形学习的蛋白质相互作用可信度评估,过滤预测结果中的噪声

项目摘要

蛋白质是生物功能的直接执行者,而蛋白质相互作用是细胞进行一切代谢活动的基础,因此蛋白质相互作用成为了当前蛋白质组研究的一个热点。这个问题的解决能够为蛋白质功能的分析、生命发育的探索、有效药物的开发等提供基础。本项目将以蛋白质序列特征为基础,通过构建蛋白质相互作用标准数据集,预测并评估蛋白质相互作用,最终将构建高质量的蛋白质相互作用网络,用于识别关键基因、药靶、发现复合物和功能模块等应用:根据氨基酸的理化性质,基于模糊理论对20种氨基酸的分类,在分类基础上结合距离频率、L-Z 复杂度、字符频率特征和字符位置特征来获取蛋白质序列信息的特征值,有效提取蛋白质序列信息;根据多个蛋白质相互作用数据库筛选正样本,设计负样本筛选算法,进而构建蛋白质相互作用黄金数据集;基于随机子空间和特征映射的集成学习框架,保证预测模型的准确性、泛化能力;基于流形学习的蛋白质相互作用可信度评估,过滤预测结果中的噪声。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
2

基于细粒度词表示的命名实体识别研究

基于细粒度词表示的命名实体识别研究

DOI:10.3969/j.issn.1003-0077.2018.11.009
发表时间:2018
3

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
4

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

水氮耦合及种植密度对绿洲灌区玉米光合作用和干物质积累特征的调控效应

DOI:10.3864/j.issn.0578-1752.2019.03.004
发表时间:2019
5

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

基于协同表示的图嵌入鉴别分析在人脸识别中的应用

DOI:10.3724/sp.j.1089.2022.19009
发表时间:2022

曹智的其他基金

批准号:41801175
批准年份:2018
资助金额:22.60
项目类别:青年科学基金项目

相似国自然基金

1

基于集成学习的蛋白质相互作用界面热点残基预测方法研究

批准号:31301101
批准年份:2013
负责人:夏俊峰
学科分类:C0608
资助金额:18.00
项目类别:青年科学基金项目
2

应用机器学习方法预测和分析蛋白质的结构柔性

批准号:61003187
批准年份:2010
负责人:张华
学科分类:F0213
资助金额:7.00
项目类别:青年科学基金项目
3

面向蛋白质功能预测的多标记学习方法研究与应用

批准号:61402378
批准年份:2014
负责人:余国先
学科分类:F0213
资助金额:26.00
项目类别:青年科学基金项目
4

基于多分类器集成及流形学习校准的蛋白质相互作用预测方法研究

批准号:31071168
批准年份:2010
负责人:黄德双
学科分类:C0608
资助金额:35.00
项目类别:面上项目