基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

基本信息
批准号:61672184
项目类别:面上项目
资助金额:62.00
负责人:刘滨
学科分类:
依托单位:北京理工大学
批准年份:2016
结题年份:2020
起止时间:2017-01-01 - 2020-12-31
项目状态: 已结题
项目参与者:刘秉权,汤步洲,陈俊杰,刘羽朦,王善意,龙任,郭明月,吴颢,李舒敏
关键词:
比对算法蛋白质序列分析多序列比对序列比对
结项摘要

Protein remote homology detection and fold recognition are efficient approaches for studying the structures and functions of proteins. Because proteins with distantly related homologs share low sequence similarity, the existing computational methods for protein remote homology detection and fold recognition only can achieve low performance. Amino acids can be assembled into proteins with certain structures and functions linked by peptide bonds, while the words in natural languages can be combined into meaningful sentences according to the syntax rules. The proteins and natural languages are similar. Therefore, it is reasonable to use the semantic analysis techniques in natural language processing to explore new and sensitive methods for protein remote homology detection and fold recognition. Our tasks can be summarized as follows: 1) Research on new protein representations based on semantic vector model; 2) Research on protein homology measurements based on semantic similarity model; 3) Research on remote homology detection and fold recognition methods based on ranking strategies; 4) Research on protein homology analysis methods based on semantic space model. This project will benefit the research on the protein sequence-structure-function relationships and enhance the development of drug design and precision medical.

蛋白质远同源性检测和折叠识别是研究蛋白质结构和功能的有效手段。由于具有远距离同源关系的蛋白质间序列相似性低,导致现有的计算方法识别性能低。氨基酸通过肽键链接为具有特定结构和功能的蛋白质,而字词按照语法规则拼接为具有语义的句子。两者之间存在着相似性。因此,可以借鉴自然语言处理中通过词和语法来分析语义的方法,探索新的蛋白质远同源性检测和折叠识别方法。研究内容包括:1)基于语义向量模型的蛋白质向量化方法研究;2)基于语义相似度计算模型的蛋白质同源性度量方法研究;3)基于排序策略的蛋白质远同源性检测和折叠识别方法研究;4)基于语义空间模型的蛋白质同源性分析方法研究。本项目的研究在理论上将完善蛋白质序列-结构-功能之间的映射关系,在应用上将促进药物设计和精准医疗等方面的发展。

项目摘要

蛋白质远同源性检测和折叠识别在蛋白质结构预测中扮演重要角色。然而,由于具有远同源和折叠关系的蛋白质通常具有很低的序列相似度,并且蛋白质序列长度变化范围大,现有的计算方法难以有效进行蛋白质远同源性检测和折叠识别。由于蛋白质序列可以看作生命的“语言”,本项目提出一套基于自然语言处理语义分析的蛋白质远同源性检测和折叠识别方法。研究了如何基于蛋白质多序列比对有效向量化表示蛋白质、如何基于序列比对准确度量蛋白质同源性、如何基于比对算法构建有效的预测模型、以及如何基于蛋白质序列分析有效分析蛋白质同源性。完成了基于语义向量模型的蛋白质向量化方法研究,基于语义相似度计算模型的蛋白质同源性度量方法研究,基于排序策略的蛋白质远同源性检测和折叠识别方法研究以及基于语义空间模型的蛋白质同源分析方法研究。在算法理论研究和工程实现方面都取得了良好的效果。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

正交异性钢桥面板纵肋-面板疲劳开裂的CFRP加固研究

DOI:10.19713/j.cnki.43-1423/u.t20201185
发表时间:2021
3

硬件木马:关键问题研究进展及新动向

硬件木马:关键问题研究进展及新动向

DOI:
发表时间:2018
4

基于SSVEP 直接脑控机器人方向和速度研究

基于SSVEP 直接脑控机器人方向和速度研究

DOI:10.16383/j.aas.2016.c150880
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

刘滨的其他基金

批准号:81902531
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:51474205
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:71271076
批准年份:2012
资助金额:55.00
项目类别:面上项目
批准号:71303100
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:71563016
批准年份:2015
资助金额:30.00
项目类别:地区科学基金项目
批准号:30901111
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:41102198
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目
批准号:61300112
批准年份:2013
资助金额:23.00
项目类别:青年科学基金项目

相似国自然基金

1

基于自然语言处理技术的生物实体语义网络研究和应用

批准号:61202304
批准年份:2012
负责人:魏小梅
学科分类:F0211
资助金额:25.00
项目类别:青年科学基金项目
2

基于自然语言处理技术的蛋白质结构和功能预测

批准号:61003090
批准年份:2010
负责人:董启文
学科分类:F0213
资助金额:21.00
项目类别:青年科学基金项目
3

基于自然语言处理技术的DNA结合蛋白质预测

批准号:61573118
批准年份:2015
负责人:王晓龙
学科分类:F03
资助金额:64.00
项目类别:面上项目
4

基于自然语言处理技术的蛋白质相互作用预测方法研究

批准号:60673019
批准年份:2006
负责人:林磊
学科分类:F0214
资助金额:26.00
项目类别:面上项目