基于序列谱进化信息的蛋白质远程同源性检测方法研究

基本信息
批准号:61300112
项目类别:青年科学基金项目
资助金额:23.00
负责人:刘滨
学科分类:
依托单位:哈尔滨工业大学
批准年份:2013
结题年份:2016
起止时间:2014-01-01 - 2016-12-31
项目状态: 已结题
项目参与者:孙承杰,徐军,户保田,陈毅,官山山,张亮,张景梅,郭永辉
关键词:
自然语言处理序列谱蛋白质远程同源性判别式方法文本分类
结项摘要

Protein remote homology detection is one of the key techniques for the study on protein structure and function. Since the remote homologous proteins share low sequence similarity, the current available computational methods cannot accurately detect the protein remote homology. Profiles contain evolutionary information extracted from the multiple sequence alignments. Therefore, it is crucial to extract and adopt the evolutionary information from profiles for accurate protein remote homology detection. This project will explore new computational methods for protein remote homology detection by using the evolutionary information extracted from profiles and the techniques and knowledge from different disciplines, such as biology, mathematics, natural language processing and machine learning. Our tasks can be summarized as follows: 1) Generation of a novel profile-based protein sequence representation by extracting the evolutionary information from profiles; 2) Application of natural language processing techniques, profile-based alignment algorithm and multi-kernel learning to protein remote homology detection. Exploring the building blocks of proteins, similar to the words in the human language, as well as the grammar rules of protein sequences; 3) Exploration into the features of protein families on a biological basis; 4) Application of the proposed protein remote homology methods to solve the problems of protein fold recognition and protein binding site prediction. This project will benefit the study of the relationship among protein sequence, structure and function. It could also be applied to further promote the development of medicine and agriculture.

蛋白质远程同源性检测是研究蛋白质结构和功能的有效手段之一。由于远程同源蛋白质序列相似性较低,目前的计算方法不能准确检测蛋白质的远程同源性。序列谱包含了多序列比对中的进化信息,提取和利用序列谱中的进化信息是提高预测精度的关键。本项目以提取和利用序列谱进化信息为切入点,通过结合生物学、数学、自然语言处理技术和机器学习算法来探索新的计算方法。研究内容包括:1)通过提取序列谱中的进化信息,生成基于序列谱的蛋白质表示形式;2)采用自然语言处理技术、序列谱比对算法和多核学习方法检测蛋白质远程同源性。寻找与自然语言中的词等价的蛋白质组成成份和蛋白质序列的语法规则;3)结合生物学背景知识挖掘蛋白质家族的特征;4)应用本项目提出的远程同源性检测方法,解决蛋白质折叠识别和蛋白质相互作用位点预测问题。本项目的研究在理论上可以推动蛋白质序列、结构、功能之间的映射关系的研究,在应用上可以促进医药学和农业的发展。

项目摘要

项目背景.蛋白质是生命系统内最为重要的物质之一,它是生命活动的重要承担者。蛋白质结构和功能的研究对生物医学、人类生活和生成实践等方面都具有重大的意义。因此,寻找有效的计算方法,使之能根据有限的已知结构和功能的蛋白质,对新测定的蛋白质序列进行注释,已成为目前生物信息学中亟待解决的问题之一。.主要研究内容.项目组以序列谱进化信息为切入点,通过结合生物学、数学、自然语言处理技术和机器学习方法来研究蛋白质远程同源性检测的相关问题。研究内容包括:(1)提取序列谱进化信息,生成新的基于序列谱的蛋白质表示;(2)基于自然语言处理技术、序列谱比对算法和多核学习的蛋白质远程同源性检测研究;(3)挖掘蛋白质家族特征和分析解释其生物学含义;(4)应用提出的蛋白质远程同源性检测方法解决蛋白质折叠和蛋白质位点预测任务。.重要结果及关键数据.经过3年的研究努力,项目组在序列谱进化信息提取方法和蛋白质远程同源性检测方法上都取得了重要的成果。在项目执行期间,共资助发表SCI论文30篇,其中1篇论文被中国科学技术信息研究所评选为 “2014年中国百篇最具影响国际学术论文”,其中1篇论文被中国科学技术信息研究所评选为 “2015年中国百篇最具影响国际学术论文”,16 篇论文入选Essential Science Indicators(ESI)高被引论文(被引频次在本学科领域排名全球前1%),其中7 篇论文入选ESI 热点论文(被引频次在本学科领域排名全球前0.1%)。提出7个蛋白质远程同源性检测方法,在基准测试集上性能优于同类方法,并开发出多个预测系统,已被访问多少次57823次。培养硕士、博士研究生5名。完成了计划执行的目标。.科学意义.基于序列谱的蛋白质表示,不仅有助于蛋白质远程同源性检测,还将推动蛋白质结构和功能的研究。鉴于蛋白质序列与自然语言之间的相似性,项目组将自然语言处理技术应用于生物信息学研究领域,为该领域提供新方法、新理论。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

环境类邻避设施对北京市住宅价格影响研究--以大型垃圾处理设施为例

DOI:10.11821/dlyj020190689
发表时间:2020
2

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究

DOI:10.3969/j.issn.1002-0268.2020.03.007
发表时间:2020
3

气载放射性碘采样测量方法研究进展

气载放射性碘采样测量方法研究进展

DOI:
发表时间:2020
4

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

F_q上一类周期为2p~2的四元广义分圆序列的线性复杂度

DOI:10.11999/JEIT210095
发表时间:2021
5

双吸离心泵压力脉动特性数值模拟及试验研究

双吸离心泵压力脉动特性数值模拟及试验研究

DOI:10.13465/j.cnki.jvs.2020.19.016
发表时间:2020

刘滨的其他基金

批准号:81902531
批准年份:2019
资助金额:21.00
项目类别:青年科学基金项目
批准号:61672184
批准年份:2016
资助金额:62.00
项目类别:面上项目
批准号:51474205
批准年份:2014
资助金额:85.00
项目类别:面上项目
批准号:71271076
批准年份:2012
资助金额:55.00
项目类别:面上项目
批准号:71303100
批准年份:2013
资助金额:22.00
项目类别:青年科学基金项目
批准号:71563016
批准年份:2015
资助金额:30.00
项目类别:地区科学基金项目
批准号:30901111
批准年份:2009
资助金额:18.00
项目类别:青年科学基金项目
批准号:41102198
批准年份:2011
资助金额:25.00
项目类别:青年科学基金项目

相似国自然基金

1

识别蛋白质超家族之间远程同源性的算法研究

批准号:11201334
批准年份:2012
负责人:陈科
学科分类:A0604
资助金额:22.00
项目类别:青年科学基金项目
2

蛋白质远程同源检测中的核方法研究

批准号:30570368
批准年份:2005
负责人:黄德双
学科分类:C0505
资助金额:20.00
项目类别:面上项目
3

基于分子序列信息的姜黄属植物系统进化研究

批准号:31200161
批准年份:2012
负责人:陈娟
学科分类:C0201
资助金额:22.00
项目类别:青年科学基金项目
4

基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

批准号:61672184
批准年份:2016
负责人:刘滨
学科分类:F0213
资助金额:62.00
项目类别:面上项目