Considering the diversity of biological samples and complexity of experimental process, mass spectrogram are rich in noise, leading to a lot of incorrect matches lie in SEQUEST’s search results. At present, it has become the bottleneck for the development of proteomics. Effective control impact of noise and integration of heterogeneous complementary information is a feasible way to improve the quality of peptide identification. Based on previous studies, the main research contents are as follows: design fuzzy membership function and construct fuzzy support vector machine model to control impact of noise data; realize the unified mathematical representation of SEQUEST scoring information, peptides enzyme information and protein homology under the framework of random set theory; develop multiple kernel learning algorithm for fuzzy support vector machine on the basis of data filtering, relevance and registration to realize multi-source complementary information fusion; apply optimization theory analysis the model structure and design parallel algorithm to improve the speed of model solution. This project serves to improve the sensitivity and specificity of peptide identification in shotgun proteomics.
蛋白质样品的多样性和生物实验的复杂性导致质谱图中富含噪声,数据库搜索引擎如SEQUEST等搜索得到的肽段匹配中存在大量阴性鉴定,目前已成为制约蛋白质组学发展的瓶颈问题,有效控制噪声负面影响、高效整合异质互补信息是改善肽段鉴定结果的可行途径。本课题拟在前期研究的基础上,面向SEQUEST的肽段鉴定结果,构建一套实现多源信息融合的框架性方案。主要研究内容包括:针对富含噪声的海量生物数据,构造模糊隶属度函数,建立模糊支持向量机模型以控制噪声数据的负面影响;在随机集理论框架下研究SEQUEST打分信息、肽段酶切信息、蛋白质同源性信息等多源异质信息的统一数学表示,在数据过滤、关联和配准的基础上开发模糊非稀疏多核学习算法,实现多源互补信息的高效融合;应用最优化理论对模型进行结构分析,设计并行优化算法,快速求解模型。本课题的完成将有效提高肽段鉴定的灵敏度和特异性,具有重要的科学理论价值及广阔的应用前景。
本项目应用机器学习算法对肽段鉴定质量控制问题展开了深入研究。相关研究成果以论文形式提交,目前已录用论文两篇(SCI源刊一篇,国际会议论文一篇),另外两篇论文处于审稿阶段。项目运行期间参加国际学术会议一次(机器学习国际大会ICML2014,北京),参加国内学术会议一次(第十二届机器学习与应用研讨会MLA2014,西安)。.本项目的计划研究内容均顺利完成,所取得研究成果包括:.1. 实现多源数据信息的矩阵表达,建立多核学习算法的多源数据融合方案.SEQUEST等数据库搜索引擎的搜索结果中含有大量异质数据信息,如肽段酶切信息、同源蛋白质信息、匹配打分信息等。这些异质信息的有效融合无疑将大大改进肽段鉴定质量。本课题研究了三种异质信息的矩阵表达方法,将形式复杂的异质数据信息转化为核学习算法能方便集成的矩阵形式;同时提出了非稀疏多核学习算法,实现了多源异质数据的有效融合。.2. 建立模糊多核支持向量机模型.针对质谱数据中富含噪声的问题,引入Fuzzy SVM学习算法,通过模糊隶属度函数的有效控制噪声的负面影响进而提高核学习算法的抗噪能力及泛化能力。基于样本点的模糊隶属度和多核学习算法,建立了模糊多核支持向量机模型优化肽段鉴定结果。.3. 开发肽段鉴定质量控制系统并完成应用验证.以肽段鉴定为研究背景,在Vanderbilt大学Link生物信息实验室提供的真实生物数据上完成了对上述研究成果的应用验证。实验表明与目前国际主流算法PeptideProphet和Percolator相比,本项目所建立的多核学习算法能显著提高肽段鉴定的灵敏度和特异性。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
惯性约束聚变内爆中基于多块结构网格的高效辐射扩散并行算法
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
基于制造大数据融合建模的多材料车身装配质量预测控制
基于多源数据融合的基因本体扩展方法研究
融合多源数据的质量负载形变特性研究及其对地壳形变影响分析
基于空间特征学习的多源高程数据融合方法