面向多源高维数据的局部因果关系挖掘研究

基本信息
批准号:61876206
项目类别:面上项目
资助金额:62.00
负责人:俞奎
学科分类:
依托单位:合肥工业大学
批准年份:2018
结题年份:2022
起止时间:2019-01-01 - 2022-12-31
项目状态: 已结题
项目参与者:杨静,王爱国,凌兆龙,王忠培,刘啸剑,孙博寒,朱金玲,栗永泽,李虎
关键词:
因果不充分性非独立同分布多源高维数据局部因果关系非忠实性
结项摘要

Causal discovery is of primary interest in science and almost every aspect of our everyday life. With the advance of data collection technology, more and more data are collected from multiple sources, leading to the huger data volumes and high dimensionality. Therefore, this essentially limits almost all existing global causal discovery methods cannot deal with such type of multiple datasets due to computational intractability and low accuracy. Thus, local causal discovery becomes an essential and challenging research direction for big data analytics. However, due to multiple datasets collected from multiple sources with high dimensionality, this results in that the multiple datasets may not satisfy the assumptions of causal sufficiency, faithfulness, or identical and independent data distribution that are often required in causal discovery. Thus, to deal with multiple and high-dimensional datasets, by leveraging machine learning theories and methods, this project focuses on studying (1) local causal discovery with causal insufficiency, (2) local causal discovery with combined causes, and (3) local causal discovery with non identically and independently distributed data, for providing new approaches for solving local causal discovery from multiple datasets in real-world applications. The outputs of the project will apply to real-world multiple and high-dimensional cancer gene datasets for the discovery of causal genes, and will design a prototype system to validate the effectiveness of the methods proposed in the project.

因果关系挖掘任务在自然科学与社会科学等应用领域有着广泛应用。随着数据采集技术的发展,越来越多的数据以多个数据源的形式呈现,数据的多源性又进一步导致数据的维度和规模越来越大。这使得传统的全局因果关系挖掘算法难以满足时间与精度的要求,从而挖掘局部因果关系成为新的研究课题。本课题拟开展面向多源高维数据的局部因果关系挖掘算法研究。但是数据的多源性与高维度导致多源数据往往不满足传统因果关系挖掘算法所需要的因果充分性、忠实性或独立同分布的假设条件。因此,本项目在融合机器学习理论与实践算法的基础上,重点开展面向多源高维数据的因果不充分条件下的局部因果结构挖掘、非忠实性条件下的组合性因果关系挖掘、以及非独立同分布条件下的局部因果结构挖掘问题研究,为实际应用领域中多源高维数据的局部因果关系挖掘提供新的解决途径。设计并实现面向多源高维癌症基因数据的致癌基因挖掘原型系统,以此验证本课题提出的方法的有效性。

项目摘要

围绕多源高维数据的局部因果关系挖掘及其算法应用验证进行研究,项目组从非多独立同分布条件下的因果关系挖掘方法、违反忠实性假设的局部因果关系挖掘方法、面向隐变量的因果结构学习与效应计算方法、融入因果推断的深度学习方法、知识表示与知识学习方法、算法开源及其在实际领域数据验证共六个方面对局部因果关系挖掘进行了研究,在国内外重要学术刊物和会议上发表高质量论文35篇,包括IEEE/ACM Transactions 论文17篇、CCF A/B类国际顶级会议长文论文7篇、国内计算机领域顶级学报论文1篇。培养博士生2名、硕士生10名,荣获安徽省优秀硕士学位论文奖1项和安徽省计算机学会优秀硕士学位论文奖2项;项目组开发和开源了27种经典和最新局部因果推断、全局因果结构学习、因果特征选择算法开源工具包。该项目研究成果不仅拓展了因果推断的数据适用范围,而且对因果推断与机器学习的融合具有重要的意义。 项目负责人成功获批科技创新2030-“新一代人工智能”重大项目课题1项(“常识知识学习与因果分析”,No. 2020AAA0106100)、子课题1项(“跨媒体因果推断与可信机器学习”,No. 2021ZD0111801)。项目主要参与人杨静教授成功获批1项国家基金面上项目(“面向动态非欧数据的因果结构学习关键问题研究”,No. 62176082)。

项目成果
{{index+1}}

{{i.achievement_title}}

{{i.achievement_title}}

DOI:{{i.doi}}
发表时间:{{i.publish_year}}

暂无此项成果

数据更新时间:2023-05-31

其他相关文献

1

玉米叶向值的全基因组关联分析

玉米叶向值的全基因组关联分析

DOI:
发表时间:
2

论大数据环境对情报学发展的影响

论大数据环境对情报学发展的影响

DOI:
发表时间:2017
3

监管的非对称性、盈余管理模式选择与证监会执法效率?

监管的非对称性、盈余管理模式选择与证监会执法效率?

DOI:
发表时间:2016
4

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

基于 Kronecker 压缩感知的宽带 MIMO 雷达高分辨三维成像

DOI:10.11999/JEIT150995
发表时间:2016
5

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

小跨高比钢板- 混凝土组合连梁抗剪承载力计算方法研究

DOI:10.19701/j.jzjg.2015.15.012
发表时间:2015

俞奎的其他基金

相似国自然基金

1

面向多源高维数据流的在线特征选择与分类方法研究

批准号:61673152
批准年份:2016
负责人:胡学钢
学科分类:F0605
资助金额:61.00
项目类别:面上项目
2

面向城市服务的多源移动大数据挖掘与应用研究

批准号:71761031
批准年份:2017
负责人:冯慧芳
学科分类:G0105
资助金额:28.00
项目类别:地区科学基金项目
3

面向高维数据挖掘的非负矩阵分解关键问题研究

批准号:61375062
批准年份:2013
负责人:景丽萍
学科分类:F0603
资助金额:80.00
项目类别:面上项目
4

结合情境感知的移动互联网高维、多源、异构用户数据挖掘方法研究

批准号:61402373
批准年份:2014
负责人:杨涛
学科分类:F0205
资助金额:25.00
项目类别:青年科学基金项目