基于串联质谱数据的多肽鉴定半监督学习并行算法研究

基本信息
批准号:61503412
项目类别:青年科学基金项目
资助金额:18.00
负责人:梁锡军
学科分类:
依托单位:中国石油大学(华东)
批准年份:2015
结题年份:2018
起止时间:2016-01-01 - 2018-12-31
项目状态: 已结题
项目参与者:渐令,孙清滢,殷海青,杜小雨
关键词:
半监督学习并行算法多源数据融合蛋白质鉴定
结项摘要

The complexity of biological samples and experimental process leads to rich noise in mass spectrogram, resulting in a large quantity of incorrect peptide spectrum matches (PSMs) in SEQUEST’s search results. Machine learning methods for post-data processing is a critical step for protein identification. Current methods have high computational complexity and could not efficiently solve large-scale dataset rapidly. The rich multi-source heterogeneous information accumulated in biological experiments is not sufficiently utilized either. These factors have hampered the progress of protein identification. Designing special parallel algorithms and heterogeneous multi-source data fusion methods under an appropriate mathematical framework is the key for high-throughput MS/MS platform to achieve high accuracy. Semi-supervised learning model has strong generalization ability and is a powerful mathematical model for peptide identification. This subject intends to study the parallel algorithm for semi-supervised learning model for peptide identification. The main research issues of this subject includes: building the sample reduction rules for semi-supervised learning model; employing the alternative convex search framework to establish an efficient parallel algorithm; establishing a unified framework for multi-source heterogeneous data fusion and peptide identification; verifying the performance of the algorithms by testing laboratory data sets. This project is valuable for improving identification accuracy of mass spectrometry techniques and promoting the progress of biotechnology.

蛋白质样品和生物实验的复杂性使得质谱图富含噪声,导致质谱匹配引擎如SEQUEST产生的多肽谱匹配含有大量假阴性鉴定.基于机器学习方法进行后验数据处理是当前蛋白质鉴定的关键环节.现有方法计算复杂度较高,不能高效处理大规模生物实验数据集,也没有充分利用生物实验积累的丰富多源异质信息,制约了蛋白质组鉴定技术的发展.在恰当的数学模型下设计多肽鉴定的并行算法并将多源异质信息相融合是实现高通量高精度蛋白质鉴定的关键. 半监督学习模型推广能力强,是多肽鉴定的有力数学模型.本课题拟以多肽鉴定为应用背景,研究半监督学习模型的并行求解算法,包括:构建半监督学习模型的样本约简规则;采用交替凸搜索算法框架,建立半监督学习模型的高效并行算法;建立多源异质信息融合与多肽鉴定的统一学习框架;通过实验室数据集检验算法的性能.本课题的研究对于提升质谱鉴定水平、促进生物技术进步具有重要意义.

项目摘要

蛋白质样品和生物实验的复杂性使得质谱图富含噪声,导致质谱匹配引擎如SEQUEST 产生的多肽谱匹配(PSM)含有大量假阴性鉴定.基于机器学习方法进行后验数据处理是当前蛋白质鉴定的关键环节.现有方法计算复杂度较高,不能高效处理大规模生物实验数据集,也没有充分利用生物实验积累的丰富多源异质信息,制约了蛋白质组鉴定技术的发展.本课题以多肽鉴定为应用背景,研究了半监督学习模型高效求解方法,特别是构建了大规模数据集的样本约简规则; 建立了大规模多肽鉴定的并行和在线算法;建立多源异质信息融合与多肽鉴定的统一学习框架;通过实验室数据集检验算法的性能.本课题的研究对于提升质谱鉴定水平、促进生物技术进步具有重要意义.

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
2

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

主控因素对异型头弹丸半侵彻金属靶深度的影响特性研究

DOI:10.13465/j.cnki.jvs.2020.09.026
发表时间:2020
3

基于多模态信息特征融合的犯罪预测算法研究

基于多模态信息特征融合的犯罪预测算法研究

DOI:
发表时间:2018
4

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例

DOI:
发表时间:2022
5

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法

DOI:10.19596/j.cnki.1001-246x.8419
发表时间:2022

梁锡军的其他基金

相似国自然基金

1

数据流半监督分类中的半监督迁移学习研究

批准号:61866007
批准年份:2018
负责人:文益民
学科分类:F0603
资助金额:38.00
项目类别:地区科学基金项目
2

基于半监督集成学习的不平衡数据研究

批准号:61203292
批准年份:2012
负责人:陈欢欢
学科分类:F0603
资助金额:24.00
项目类别:青年科学基金项目
3

高精度串联质谱数据非限制翻译后修饰鉴定的方法研究

批准号:21275160
批准年份:2012
负责人:朱云平
学科分类:B0403
资助金额:78.00
项目类别:面上项目
4

基于串联质谱数据的非限制修饰蛋白质数据库搜索鉴定算法研究

批准号:61100021
批准年份:2011
负责人:于长永
学科分类:F0202
资助金额:23.00
项目类别:青年科学基金项目