基于串联质谱数据的多肽鉴定半监督学习并行算法研究

基本信息

批准号：61503412

项目类别：青年科学基金项目

资助金额：18.00

负责人：梁锡军

学科分类：

依托单位：中国石油大学（华东）

批准年份：2015

结题年份：2018

起止时间：2016-01-01 - 2018-12-31

项目状态：已结题

项目参与者：渐令,孙清滢,殷海青,杜小雨

关键词：

半监督学习并行算法多源数据融合蛋白质鉴定

结项摘要

The complexity of biological samples and experimental process leads to rich noise in mass spectrogram, resulting in a large quantity of incorrect peptide spectrum matches (PSMs) in SEQUEST’s search results. Machine learning methods for post-data processing is a critical step for protein identification. Current methods have high computational complexity and could not efficiently solve large-scale dataset rapidly. The rich multi-source heterogeneous information accumulated in biological experiments is not sufficiently utilized either. These factors have hampered the progress of protein identification. Designing special parallel algorithms and heterogeneous multi-source data fusion methods under an appropriate mathematical framework is the key for high-throughput MS/MS platform to achieve high accuracy. Semi-supervised learning model has strong generalization ability and is a powerful mathematical model for peptide identification. This subject intends to study the parallel algorithm for semi-supervised learning model for peptide identification. The main research issues of this subject includes: building the sample reduction rules for semi-supervised learning model; employing the alternative convex search framework to establish an efficient parallel algorithm; establishing a unified framework for multi-source heterogeneous data fusion and peptide identification; verifying the performance of the algorithms by testing laboratory data sets. This project is valuable for improving identification accuracy of mass spectrometry techniques and promoting the progress of biotechnology.

蛋白质样品和生物实验的复杂性使得质谱图富含噪声，导致质谱匹配引擎如SEQUEST产生的多肽谱匹配含有大量假阴性鉴定．基于机器学习方法进行后验数据处理是当前蛋白质鉴定的关键环节．现有方法计算复杂度较高，不能高效处理大规模生物实验数据集，也没有充分利用生物实验积累的丰富多源异质信息，制约了蛋白质组鉴定技术的发展．在恰当的数学模型下设计多肽鉴定的并行算法并将多源异质信息相融合是实现高通量高精度蛋白质鉴定的关键. 半监督学习模型推广能力强，是多肽鉴定的有力数学模型．本课题拟以多肽鉴定为应用背景，研究半监督学习模型的并行求解算法，包括：构建半监督学习模型的样本约简规则；采用交替凸搜索算法框架，建立半监督学习模型的高效并行算法；建立多源异质信息融合与多肽鉴定的统一学习框架；通过实验室数据集检验算法的性能．本课题的研究对于提升质谱鉴定水平、促进生物技术进步具有重要意义．

项目摘要

蛋白质样品和生物实验的复杂性使得质谱图富含噪声，导致质谱匹配引擎如SEQUEST 产生的多肽谱匹配(PSM)含有大量假阴性鉴定．基于机器学习方法进行后验数据处理是当前蛋白质鉴定的关键环节．现有方法计算复杂度较高，不能高效处理大规模生物实验数据集，也没有充分利用生物实验积累的丰富多源异质信息，制约了蛋白质组鉴定技术的发展．本课题以多肽鉴定为应用背景，研究了半监督学习模型高效求解方法，特别是构建了大规模数据集的样本约简规则；建立了大规模多肽鉴定的并行和在线算法；建立多源异质信息融合与多肽鉴定的统一学习框架；通过实验室数据集检验算法的性能．本课题的研究对于提升质谱鉴定水平、促进生物技术进步具有重要意义．

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：

DOI：

发表时间：2021

DOI：10.7606/j.issn.1000-7601.2021.04.29

发表时间：2021

DOI：

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

梁锡军的其他基金

相似国自然基金

数据流半监督分类中的半监督迁移学习研究

批准号：61866007

批准年份：2018

负责人：文益民

学科分类：F0603

资助金额：38.00

项目类别：地区科学基金项目

基于半监督集成学习的不平衡数据研究

批准号：61203292

批准年份：2012

负责人：陈欢欢

学科分类：F0603

资助金额：24.00

项目类别：青年科学基金项目

高精度串联质谱数据非限制翻译后修饰鉴定的方法研究

批准号：21275160

批准年份：2012

负责人：朱云平

学科分类：B0403

资助金额：78.00

项目类别：面上项目

基于串联质谱数据的非限制修饰蛋白质数据库搜索鉴定算法研究

批准号：61100021

批准年份：2011

负责人：于长永

学科分类：F0202

资助金额：23.00

项目类别：青年科学基金项目

基于串联质谱数据的多肽鉴定半监督学习并行算法研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于国产化替代环境下高校计算机教学的研究

基于铁路客流分配的旅客列车开行方案调整方法

向日葵种质资源苗期抗旱性鉴定及抗旱指标筛选

基于多色集合理论的医院异常工作流处理建模

基于腔内级联变频的0.63μm波段多波长激光器

梁锡军的其他基金

相似国自然基金