To systematically understand life sciences to treat diseases and construct a precision medicine-oriented medical knowledge base, it is essential to acquire data from the heterogeneous, tremendous and distributed life-science data. Semantic Web technologies provide a promising solution by distributedly storing the tremendous data in the form of directed graph of triples. However the traditional static join order, widely adopted in the current federated query systems, needs improvements regarding the performance and robustness to process the semantic queries with inexplicit data sources and complex graphical paths. The research will be conducted as follows: (1) Propose an efficient and novel query method based on dynamic optimization algorithms. a) The dynamic source optimization algorithm further refines the inexplicit data sources and reduces the size of data sources as the query is processed; b) by binding the values from the previous sub-query to the variants in the remaining sub-queries, the join or search space order can be dynamically decided by estimating the intermediate result size in the candidate sub-queries; (2) construct a precision medicine–oriented diabetes and hypertention knowledge base, over the open biological data cloud and private clinical data cloud. The implementation of the project will provide powerful supports to federated queries and the research of precision medicine.
系统地理解疾病和生命现象,构建面向精准医学的医药知识库需要从多个异构的、分布的、海量的生命科学数据源大量地获取数据。语义网使用三元组描述的有向图的分布式存储来解决生命科学数据的这些问题。然而,面对语义网查询语句的数据源不明确、图结构的数据路径复杂等特点,当前流行的基于静态连接顺序(join order)优化的SPARQL联邦查询算法还亟需改进。本项目的主要研究内容为:(1)提出原创的动态查询优化算法。a)动态数据源筛选算法逐步细化查询的数据源,缩小搜索的数据源空间的数量;b)动态连接顺序优化算法将前面子查询的结果,绑定到后面的查询变量,动态优化搜索子空间的连接顺序。动态查询优化算法将提高传统联邦查询算法的速度和鲁棒性;(2)应用该算法,结合高血压和糖尿病临床数据,通过云系统建立一个面向精准医学的高血压、糖尿病知识库。本项目的实施将为精准医学的知识库的建立提供强有力的方法和工具支持
系统地理解疾病和生命现象,构建面向精准医学的医药知识库需要从多个异构的、分布的、海量的生命科学数据源大量地获取数据。语义网使用三元组描述的有向图的分布式存储来解决生命科学数据的这些问题。然而,面对语义网查询语句的数据源不明确、图结构的数据路径复杂等特点,当前流行的基于静态连接顺序(join order)优化的SPARQL联邦查询算法还亟需改进。本项目的主要研究内容为:(1)提出原创的动态查询优化算法。a)动态数据源筛选算法逐步细化查询的数据源,缩小搜索的数据源空间的数量;b)动态连接顺序优化算法将前面子查询的结果,绑定到后面的查询变量,动态优化搜索子空间的连接顺序。动态查询优化算法将提高传统联邦查询算法的速度和鲁棒性;(2)应用该算法,结合高血压和糖尿病临床数据,通过云系统建立一个面向精准医学的高血压、糖尿病知识库。本项目的实施将为精准医学的知识库的建立提供强有力的方法和工具支持
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于多模态信息特征融合的犯罪预测算法研究
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
资源型地区产业结构调整对水资源利用效率影响的实证分析—来自中国10个资源型省份的经验证据
多源数据驱动CNN-GRU模型的公交客流量分类预测
基于知识库的学习路径优化方法研究
基于蚁群免疫算法的Web文档查询优化研究
基于可信语义Wiki的知识库构建方法与应用研究
基于动态差分进化算法的双层多目标优化方法研究