基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

基本信息

批准号：61672184

项目类别：面上项目

资助金额：62.00

负责人：刘滨

学科分类：

依托单位：北京理工大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：刘秉权,汤步洲,陈俊杰,刘羽朦,王善意,龙任,郭明月,吴颢,李舒敏

关键词：

比对算法蛋白质序列分析多序列比对序列比对

结项摘要

Protein remote homology detection and fold recognition are efficient approaches for studying the structures and functions of proteins. Because proteins with distantly related homologs share low sequence similarity, the existing computational methods for protein remote homology detection and fold recognition only can achieve low performance. Amino acids can be assembled into proteins with certain structures and functions linked by peptide bonds, while the words in natural languages can be combined into meaningful sentences according to the syntax rules. The proteins and natural languages are similar. Therefore, it is reasonable to use the semantic analysis techniques in natural language processing to explore new and sensitive methods for protein remote homology detection and fold recognition. Our tasks can be summarized as follows: 1) Research on new protein representations based on semantic vector model; 2) Research on protein homology measurements based on semantic similarity model; 3) Research on remote homology detection and fold recognition methods based on ranking strategies; 4) Research on protein homology analysis methods based on semantic space model. This project will benefit the research on the protein sequence-structure-function relationships and enhance the development of drug design and precision medical.

蛋白质远同源性检测和折叠识别是研究蛋白质结构和功能的有效手段。由于具有远距离同源关系的蛋白质间序列相似性低，导致现有的计算方法识别性能低。氨基酸通过肽键链接为具有特定结构和功能的蛋白质，而字词按照语法规则拼接为具有语义的句子。两者之间存在着相似性。因此，可以借鉴自然语言处理中通过词和语法来分析语义的方法，探索新的蛋白质远同源性检测和折叠识别方法。研究内容包括：1）基于语义向量模型的蛋白质向量化方法研究；2）基于语义相似度计算模型的蛋白质同源性度量方法研究；3）基于排序策略的蛋白质远同源性检测和折叠识别方法研究；4）基于语义空间模型的蛋白质同源性分析方法研究。本项目的研究在理论上将完善蛋白质序列-结构-功能之间的映射关系，在应用上将促进药物设计和精准医疗等方面的发展。

项目摘要

蛋白质远同源性检测和折叠识别在蛋白质结构预测中扮演重要角色。然而，由于具有远同源和折叠关系的蛋白质通常具有很低的序列相似度，并且蛋白质序列长度变化范围大，现有的计算方法难以有效进行蛋白质远同源性检测和折叠识别。由于蛋白质序列可以看作生命的“语言”，本项目提出一套基于自然语言处理语义分析的蛋白质远同源性检测和折叠识别方法。研究了如何基于蛋白质多序列比对有效向量化表示蛋白质、如何基于序列比对准确度量蛋白质同源性、如何基于比对算法构建有效的预测模型、以及如何基于蛋白质序列分析有效分析蛋白质同源性。完成了基于语义向量模型的蛋白质向量化方法研究，基于语义相似度计算模型的蛋白质同源性度量方法研究，基于排序策略的蛋白质远同源性检测和折叠识别方法研究以及基于语义空间模型的蛋白质同源分析方法研究。在算法理论研究和工程实现方面都取得了良好的效果。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：

发表时间：

DOI：

发表时间：2020

DOI：10.11842/wst.20190724002

发表时间：2020

DOI：10.3788/CJL201946.0801003

发表时间：2019

刘滨的其他基金

批准号：81902531

批准年份：2019

资助金额：21.00

项目类别：青年科学基金项目

批准号：51474205

批准年份：2014

资助金额：85.00

项目类别：面上项目

批准号：71271076

批准年份：2012

资助金额：55.00

项目类别：面上项目

批准号：71303100

批准年份：2013

资助金额：22.00

项目类别：青年科学基金项目

批准号：71563016

批准年份：2015

资助金额：30.00

项目类别：地区科学基金项目

批准号：30901111

批准年份：2009

资助金额：18.00

项目类别：青年科学基金项目

批准号：41102198

批准年份：2011

资助金额：25.00

项目类别：青年科学基金项目

批准号：61300112

批准年份：2013

资助金额：23.00

项目类别：青年科学基金项目

相似国自然基金

基于自然语言处理技术的生物实体语义网络研究和应用

批准号：61202304

批准年份：2012

负责人：魏小梅

学科分类：F0211

资助金额：25.00

项目类别：青年科学基金项目

基于自然语言处理技术的蛋白质结构和功能预测

批准号：61003090

批准年份：2010

负责人：董启文

学科分类：F0213

资助金额：21.00

项目类别：青年科学基金项目

基于自然语言处理技术的DNA结合蛋白质预测

批准号：61573118

批准年份：2015

负责人：王晓龙

学科分类：F03

资助金额：64.00

项目类别：面上项目

基于自然语言处理技术的蛋白质相互作用预测方法研究

批准号：60673019

批准年份：2006

负责人：林磊

学科分类：F0214

资助金额：26.00

项目类别：面上项目

基于自然语言处理语义分析技术的蛋白质远同源性检测和折叠识别

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

基于多色集合理论的医院异常工作流处理建模

基于文献计量学和社会网络分析的国内高血压病中医学术团队研究

基于腔内级联变频的0.63μm波段多波长激光器

刘滨的其他基金

转录因子HMGA2介导NR2F2对SHH型髓母细胞瘤的影响的机制研究

开采卸压条件下深部富含瓦斯煤岩体劣化失稳机理及仿真方法

基于语义距离的分布式数据挖掘理论与方法

农业补贴政策实施绩效与政策优化研究--基于不同资源禀赋农户视角

生态公益林补偿政策实施绩效与政策优化路径研究--基于林农视角

下丘脑神经肽（Orexin）及其受体调控大菱鲆仔鱼内-外源营养转换的机制研究

基于最小功耗原理的岩爆量化预报方法研究

基于序列谱进化信息的蛋白质远程同源性检测方法研究

相似国自然基金