Conventional statistical machine learning algorithms encounter two fundamental challenges in the big data age, namely how to design machine learning algorithms that can be applied to big data and how to provide a theoretical analysis framework for the algorithms. To the first question, a huge number of literature has generalized the classical algorithms to their distributed, on-line and hierarchical versions. However, them only have less theoretical analysis to support the feasibility of all the learning algorithms. Therefore, we focus on developing a theoretical framework to analyze the learning performance of specific distributed, on-line and hierarchical learning algorithms in this project.
进入大数据时代,经典的统计机器学习算法面临着两个基本的挑战,即如何能够适应大数据的海量、实时与类型复杂的特点设计统计机器学习算法,以及如何分析这样算法的可行性与泛化能力。针对第一个问题,有大量的文献研究了如何通过分布式学习、在线学习与层级学习的算法去解决。但是这些学习算法对于大数据处理是否是可行的仍然没有完整的理论研究。因此,本项目将聚焦于研究统计机器学习方法应用于大数据时的分布式学习、在线学习与层级学习的算法的学习理论。
大数据的典型特点是规模大、实时性强与类型复杂。统计学习上一般采用分布式学习、在线学习与层级学习的统计学习方法去解决相应的难题。本项目主要针对分布式学习、在线学习与层级学习这三类统计学习模型在大规模复杂类型数据上的应用展开系统性研究,并完成了相应的统计学习方法的可行性理论。本项目在资助期共发表相关论文25篇:其中在机器学习理论类顶级期刊Journal of Machine Learning Research上发表论文2篇;在数理统计类顶级期刊Journal of Econometrics发表论文1篇;在IEEE会刊发表文章8篇;在国际顶级机器学习会议ICML与NeurIPS发表论文2篇;在Nature子刊发表论文3篇。这些研究已经被引用超过180次(Google学术统计)。在该项目的资助下项目负责人2020年获得陕西省杰出青年基金,2021年获得国家自然科学基金委优秀青年基金。
{{i.achievement_title}}
数据更新时间:2023-05-31
论大数据环境对情报学发展的影响
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
圆柏大痣小蜂雌成虫触角、下颚须及产卵器感器超微结构观察
一种改进的多目标正余弦优化算法
“海量数据的统计学习和推断”上海暑期学校
高维数据的图模型学习与统计推断
海量时空数据的统计建模:方法与应用
海量数据下回归模型的变量选择及统计推断研究