面向大规模序列同源问题的并行分布式算法及其关键技术研究

基本信息

批准号：61672480

项目类别：面上项目

资助金额：62.00

负责人：徐云

学科分类：

依托单位：中国科学技术大学

批准年份：2016

结题年份：2020

起止时间：2017-01-01 - 2020-12-31

项目状态：已结题

项目参与者：吕敏,程昊宇,王鹏程,何忠峭,龙光宇,吴鸣,刘宏伟,汪敏,郭睿东

关键词：

并行分布式算法测序序列比对特征提取技术索引和压缩技术代码克隆检测

结项摘要

Both the sequencing sequences alignment and the code clone detection search for some ancestral or original fragments of sequences, called them as the sequence homology problems, which many such problems are existed in academia and industry. There are 1000 genomes data in 50TB+ and code lines of large software 50,000,000 lines or more. For this scale of data, the sequence data organization, parallel and distributed algorithms and architecture have become a serious challenge. We will associate research on two independent development problems at the level of sequence homology, in order to find the cross-referenced technologies and methods and propose the new concepts and new approaches at a high level. This project is planned to take the indexing, compression and feature extraction and other key technologies innovation as the basis, the design and optimization of whole process in the problem-specific parallel and distributed algorithms as the main line, and apply the parallel enabling technologies and the large-scale computational modes to enhance the solving ability. Our innovations are reflected in as follows. (1) Build the rapid code clone detection approach using the dynamic indexing and compression, based on the indexing and compression technologies in sequencing sequences alignment. (2) Create the fast sequencing sequences alignment approach using the loss compression, base on the feature extraction technologies in code clone detection. (3) Design the index structure of time and space balance using combination Hash and BWT, in order to the variety of different parallel distributed computing architectures with limited storage.

测序序列比对和代码克隆检测都是寻找一些序列片段的祖先或原版片段，我们称之为序列同源问题，学术界和工业界存在许多这样的问题和应用。像千人基因组数据在50TB以上、大型软件代码都在5000行以上，如此规模的序列数据组织、并行分布式算法与体系结构成为了严峻的挑战。我们对两个独立发展的问题在序列同源层面上进行关联研究，挖掘可借鉴的技术和方法，进而在更高层面上提出新概念和新方法。本项目将以索引、压缩和特征提取等关键技术创新为基础，面向问题的并行分布式算法全过程设计和优化为主线，应用并行分布使能技术和大规模计算模式进一步提升求解能力。创新和突破体现在：(1)借鉴序列比对中的索引和压缩技术，创建基于动态索引和压缩的代码克隆检测快速方法；(2)参考代码克隆中的特征提取技术，创建基于有损压缩的测序序列比对快速方法；(3)设计融合Hash和BWT一体的时空平衡索引结构，适应各种存储受限的并行分布式体系结构。

项目摘要

测序序列比对和代码克隆检测都是寻找一些序列片段的祖先或原版片段，我们称之为序列同源问题，学术界和工业界存在许多这样的问题和应用。我们对两个独立发展的问题在序列同源层面上进行关联研究，挖掘可借鉴的技术和方法，进而在更高层面上提出新概念和新方法。项目以索引关键技术为基础，适配数据组织的算法设计和优化为主线，大规模并行计算技术提升求解能力。项目围绕五项研究内容展开：同源问题共性分析、索引和检索方法、高效适配算法设计、并行加速和优化、差异克隆代码方法成果转化，其中最后一项内容为项目执行期新增加的。. 取得的主要成果和创新：(1)新一代索引技术创新和优化。发展了一种定长Hash索引的变长查询方法，优化了FM-Index的counting计算过程，提升效果显著。相关工作发表在生物信息学重要期刊Bioinformatics和TCBB上。(2)发展了面向差异代码克隆的两类高效检测方法。借鉴测序序列比对中“locate-filter-verify”大数据方法，提出了token类差异代码克隆检测的CCAligner新方法；借鉴近似图核匹配方法，提出了PDG（程序关联图）类差异代码克隆检测的CCGraph快速方法。相关工作发表在软件工程顶会ICSE和ASE上。(3)开展差异克隆检测方法的成果转化。2019年10月份与华为技术有限公司签订一项“大范围、高精度软件克隆检测及度量计算合作项目”的技术开发合同，该工作已于2020年底结题并通过验收。token类克隆检测工具CCAligner2.0对于千万行代码仓实现分钟级时间检测，单个程序片段实现秒级时间检测，整个软件系统得到用户满意和认可。. 差异代码克隆检测相关成果在软件开发和分析中具有广泛的应用前景，在项目执行期间不仅华为公司和我们密切合作，京东集团开发团队也多次询问和咨询了我们的CCAligner工具，现在我们和华为公司正在将差异代码克隆检测软件系统做开源的前期准备工作。

项目成果

DOI：{{i.doi}}

发表时间：{{i.publish_year}}

暂无此项成果

数据更新时间：2023-05-31

其他相关文献

DOI：

发表时间：2021

DOI：

发表时间：

DOI：10.3778/j.issn.1002-8331.1903-0411

发表时间：2020

DOI：10.19328/j.cnki.2096-8655.2022.02.002

发表时间：2022

DOI：10.16383/j.aas.c180673

发表时间：2021

徐云的其他基金

批准号：61177070

批准年份：2011

资助金额：73.00

项目类别：面上项目

批准号：41671152

批准年份：2016

资助金额：60.00

项目类别：面上项目

批准号：U1431231

批准年份：2014

资助金额：250.00

项目类别：联合基金项目

批准号：59577025

批准年份：1995

资助金额：6.00

项目类别：面上项目

批准号：31702044

批准年份：2017

资助金额：22.00

项目类别：青年科学基金项目

批准号：60970085

批准年份：2009

资助金额：30.00

项目类别：面上项目

批准号：10976004

批准年份：2009

资助金额：46.00

项目类别：联合基金项目

批准号：51708217

批准年份：2017

资助金额：22.00

项目类别：青年科学基金项目

批准号：11772067

批准年份：2017

资助金额：56.00

项目类别：面上项目

批准号：11302032

批准年份：2013

资助金额：26.00

项目类别：青年科学基金项目

批准号：10826107

批准年份：2008

资助金额：10.00

项目类别：数学天元基金项目

相似国自然基金

面向大规模优化问题的分布式Memetic算法研究

批准号：61502544

批准年份：2015

负责人：余维杰

学科分类：F0201

资助金额：22.00

项目类别：青年科学基金项目

面向大规模调度问题的并行参数自适应萤火虫优化算法研究

批准号：61866014

批准年份：2018

负责人：汪靖

学科分类：F0601

资助金额：37.00

项目类别：地区科学基金项目

面向异构并行系统的生物序列比对并行策略及算法研究

批准号：61173013

批准年份：2011

负责人：周炎涛

学科分类：F0204

资助金额：58.00

项目类别：面上项目

大规模生物序列比对及其基于异构系统的并行处理技术研究

批准号：61402400

批准年份：2014

负责人：朱香元

学科分类：F0213

资助金额：25.00

项目类别：青年科学基金项目

面向大规模序列同源问题的并行分布式算法及其关键技术研究

{{i.achievement_title}}

暂无此项成果

其他相关文献

基于铁路客流分配的旅客列车开行方案调整方法

基于LS-SVM香梨可溶性糖的近红外光谱快速检测

新型树启发式搜索算法的机器人路径规划

"多对多"模式下GEO卫星在轨加注任务规划

二维FM系统的同时故障检测与控制

徐云的其他基金

太赫兹波段金属/重掺半导体表面等离子体慢光效应的研究

川西少数民族农户减贫阻滞机制与脱贫行为研究

天文近红外相机关键技术的研究

非线性电路中非线性元件的动态特性研究

中国细须螨科系统分类

单体型问题及其算法研究

多尺度方法和材料动态响应的数值模拟研究

混凝土框架-交错层积木抗侧力墙装配式木混合结构体系受力性能研究

绝热剪切破坏的超弹-塑性本构与多尺度方法研究

剪切成带的稳定化多尺度无网格方法研究

高密度比辐射磁流体的多尺度数学模型研究

相似国自然基金