This project targeting the characteristics of the Deep Web for Genome-wide association studies (GWAS), including large amount of information, information updated from time to time, a small proportion of updating data, professional thematic content, puts forward a GWAS oriented dynamic data mining and depth query method. In Deep Web information integration process, research a coordinated operation of design and implementation among the focused crawler in positioning data sources, sensors of gathering data dynamically and integration of depth inquiry, to solve efficiently and accurately on the depth of GWAS data for dynamic data mining and query, build depth inquiry experimental system for GWAS data integration, and conduct applied research of dynamic data mining and depth query. The project will provide a fast and effective method for GWAS of Deep Web dynamic data mining and depth query, and a new effective way to study networks associated biological databases inquiry and problem handling, to promote further development of bioinformatics network data mining, data integration and information fusion.
本项目针对全基因组关联研究 (Genome-wide association studies, GWAS) 的Deep Web数据量大、信息更新不定期、更新数据比例小、内容专题性强等特点,提出一种面向GWAS的动态数据挖掘与深度查询方法。在Deep Web信息集成过程中,研究定位数据源的聚焦爬虫、动态抓取数据的感应器和深度查询集成这三者协调运行的设计与实现方法,以解决高效、准确地对GWAS数据进行动态数据挖掘与深度查询问题;建立面向GWAS的深度查询数据集成实验系统,进行动态数据挖掘与深度查询的应用研究。本项目将为面向GWAS的Deep Web动态数据挖掘与深度查询提供快速有效的方法,为研究与网络相关联的生物数据库查询和处理问题提供新的有效途径,推动生物信息学网络数据挖掘、数据集成和信息融合的进一步发展。
随着生命科学技术的与现代信息技术的蓬勃发展,基于生命组学的大数据的积累与应用均已达到前所未有的程度,多元的生物数据库资源在生物化学与生物分子学研究中得到了广泛的应用。其中,全基因组关联研究(GWAS)在发现大量复杂疾病或性状的相关变异和易感基因方面有重要作用,因此GWAS数据已成为生物基因组研究领域的重要数据来源之一。由于面向GWAS的Deep Web数据库具有数据量大、数据类型多样、数据更新动态等特点的客观原因,以及从事生物信息的研究者受制于专业背景和研究侧重点不同而使得他们对生物数据库资源的分析、处理和整合能力存在不足,制约了他们对已有数据资源充分与有效地利用等的主观原因,因此,对于面向GWAS的Deep Web数据集成研究势在必行。针对面向GWAS的Deep Web数据的诸多特点与现有挑战,本项目提出了一种面向GWAS的数据集成系统架构的方法,通过对Deep Web信息集成过程中定位数据源的聚焦爬虫、动态抓取数据的感应器和深度查询集成三者协调运行的设计与实现,实现高效、准确地应用Deep Web中的GWAS数据深度查询的问题。通过对现有挑战的分析,我们采用数据源发现、动态数据更新以及数据集成等策略,旨在解决面向GWAS的数据研究上由于主客观原因造成对信息资源利用的制约的问题,研究成果对全基因组关联分析的基础研究与转化应用起到很大的助推作用。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
卫生系统韧性研究概况及其展望
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
面向健康管理数据的关联型知识深度挖掘方法研究
基于低深度测序数据的全基因组关联研究
基于动态深度信息挖掘的海量全流程数据分布式监控策略研究
基于高阶SNP互作挖掘与分析的复杂疾病全基因组关联研究