Big data have become a national strategy. Various industries have collected massive amounts of data, but the utilization rate is rather low. The uncertainties of big data such as inconsistency, missing data and random noise reduce the usability of the data. In addition, the uncertainties brought by approximation and divide-and-conquer strategy applied in large-scale computation also bring challenges for the practicality of machine learning. In this project, we take the spatial weather forecast as example, the evaluation metrics for uncertainties are discussed, the influences of uncertainties on the performance of the learning algorithms are analyzed, the robust learning method is constructed, and the performance of which is improved by actively utilizing uncertainty, the theory of uncertainty is established. The research of this project will result in the following innovative achievements: 1) For large-scale machine learning, we will establish an axiomatic system characterized by uncertainty, and propose an efficient evaluation method for uncertainties in data and modeling; 2) We will establish an uncertainty learning theory, forming analysis methods for the influence of uncertainty on the generalization of learning algorithms, obtaining the relationship between generalization ability of mainstream learning algorithms and uncertainty, which provide theoretical guidance for model and algorithm selection in large-scale machine learning; 3) We will develop robust learning algorithm to achieve the efficient utilization of low-quality data; 4) The research results are applied to the modeling of space weather forecast, and the space weather forecast model with high performance is obtained.
大数据已成为国家战略,许多行业收集了海量数据,但利用率很低。大数据中包含的不一致、缺失和随机噪声等各种不确定性严重制约了数据的可用性,大规模计算采用的近似和分治学习策略带来的不确定性也给机器学习的实用性带来了挑战。本项目以空间天气预报为应用示范,讨论大数据中各种不确定性的度量指标,分析不确定性对学习算法性能的影响,构造不确定性鲁棒的学习方法,并主动利用不确定性提高学习性能,建立不确定性学习理论。本项目的研究将形成如下创新性成果:1)面向大规模机器学习,建立刻画不确定性的公理化体系,获得数据与建模不确定性的高效评估方法;2)建立不确定学习理论,形成数据不确定性对学习算法泛化性能影响的分析方法,得到主流学习算法泛化性能与不确定性的关系,为大数据机器学习模型与算法选择提供理论指导;3)开发鲁棒的学习算法,实现低质数据的高效利用;4)将研究成果应用于空间天气预报建模,获得高性能的空间天气预报模型。
本项目按照计划,建立了大数据不确定性的表示和评价公理化体系。对不同来源、不同类型、不同程度的不确定性,实现不确定性的自动度量、表示与建模,解决目前不确定性缺少统一度量和表示的难题。在不确定性大数据学习理论方面,提出不确定性对机器学习过程的影响机理,建立起基于不确定性的泛化误差分析和学习过程的模型收敛性分析理论;在不确定性诱导的学习理论指导下,设计了低质数据的鲁棒机器学习策略;在大规模机器学习方面,依赖于模型不确定性对泛化能力的影响理论和大数据的大规模特性,分别提出多种新的学习算法和可信优化模型。建立了空间天气预报的典型应用示范系统,包括太阳活动预报、地磁预报、高能电子暴预报以及太阳射流预报等;相关技术应用于腾讯公司的智能癌症诊疗平台。在系统建设方面,开发了无人驾驶自动标注平台和无人机智能巡检平台。共发表学术论文 120 篇,其中 IEEE、ACM 等主办的国际权威期刊论文 79 篇,顶级国际会议(CCF-A)发表(录用)论文 19 篇;申请中国发明专利 15 项,已授权 9 项;培养国家杰青 1 名,国家优秀 2 名,国家青年拔尖 1 名,“博新计划”获得者 1 名,中国科协青托 1 名;获天津科技进步类一等奖 1 项、二等奖 1 项,山西省自然科学一等奖1项、中国图象图形学会自然科学一等奖1项,吴文俊人工智能优秀青年奖 1 项。总体上,通过团队五年的协同攻关,项目成果在相关领域产生了积极的学术影响,创造了良好的社会和经济效益。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于SSVEP 直接脑控机器人方向和速度研究
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
栓接U肋钢箱梁考虑对接偏差的疲劳性能及改进方法研究
气载放射性碘采样测量方法研究进展
面向大数据的机器学习理论与方法
面向大数据机器学习的不确定性建模及应用研究
面向翼型基于机器学习理论的湍流建模方法研究
面向大数据的随机森林机器学习理论与算法研究