Protein remote homology detection and fold recognition are efficient approaches for studying the structures and functions of proteins. Because proteins with distantly related homologs share low sequence similarity, the existing computational methods for protein remote homology detection and fold recognition only can achieve low performance. Amino acids can be assembled into proteins with certain structures and functions linked by peptide bonds, while the words in natural languages can be combined into meaningful sentences according to the syntax rules. The proteins and natural languages are similar. Therefore, it is reasonable to use the semantic analysis techniques in natural language processing to explore new and sensitive methods for protein remote homology detection and fold recognition. Our tasks can be summarized as follows: 1) Research on new protein representations based on semantic vector model; 2) Research on protein homology measurements based on semantic similarity model; 3) Research on remote homology detection and fold recognition methods based on ranking strategies; 4) Research on protein homology analysis methods based on semantic space model. This project will benefit the research on the protein sequence-structure-function relationships and enhance the development of drug design and precision medical.
蛋白质远同源性检测和折叠识别是研究蛋白质结构和功能的有效手段。由于具有远距离同源关系的蛋白质间序列相似性低,导致现有的计算方法识别性能低。氨基酸通过肽键链接为具有特定结构和功能的蛋白质,而字词按照语法规则拼接为具有语义的句子。两者之间存在着相似性。因此,可以借鉴自然语言处理中通过词和语法来分析语义的方法,探索新的蛋白质远同源性检测和折叠识别方法。研究内容包括:1)基于语义向量模型的蛋白质向量化方法研究;2)基于语义相似度计算模型的蛋白质同源性度量方法研究;3)基于排序策略的蛋白质远同源性检测和折叠识别方法研究;4)基于语义空间模型的蛋白质同源性分析方法研究。本项目的研究在理论上将完善蛋白质序列-结构-功能之间的映射关系,在应用上将促进药物设计和精准医疗等方面的发展。
蛋白质远同源性检测和折叠识别在蛋白质结构预测中扮演重要角色。然而,由于具有远同源和折叠关系的蛋白质通常具有很低的序列相似度,并且蛋白质序列长度变化范围大,现有的计算方法难以有效进行蛋白质远同源性检测和折叠识别。由于蛋白质序列可以看作生命的“语言”,本项目提出一套基于自然语言处理语义分析的蛋白质远同源性检测和折叠识别方法。研究了如何基于蛋白质多序列比对有效向量化表示蛋白质、如何基于序列比对准确度量蛋白质同源性、如何基于比对算法构建有效的预测模型、以及如何基于蛋白质序列分析有效分析蛋白质同源性。完成了基于语义向量模型的蛋白质向量化方法研究,基于语义相似度计算模型的蛋白质同源性度量方法研究,基于排序策略的蛋白质远同源性检测和折叠识别方法研究以及基于语义空间模型的蛋白质同源分析方法研究。在算法理论研究和工程实现方面都取得了良好的效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究
硬件木马:关键问题研究进展及新动向
基于SSVEP 直接脑控机器人方向和速度研究
小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究
基于自然语言处理技术的生物实体语义网络研究和应用
基于自然语言处理技术的蛋白质结构和功能预测
基于自然语言处理技术的DNA结合蛋白质预测
基于自然语言处理技术的蛋白质相互作用预测方法研究