In recent years, the rapid development of various machine learning models has promoted the extensive and successful application of artificial intelligence. To lower the bar to the usage of machine learning for common users, it is an important task to automatically select a best machine learning model and its optimal hyper-parameter values for a given practical application problem. Nowadays, it is a hot research topic to solve the machine learning model selection problem from the perspective of integration optimization of the learning model and its hyper-parameters. However, there is still an obvious gap between the existing research works and the requirements of practical automatic machine learning since the lack of optimization efficiency. The purpose of this project is to propose the fast machine learning model selection methods to meet the requirements of big data applications. The project tries to improve the performance of Bayesian optimization by the technique of progressive sampling, where the concrete studies include 1) improving the search efficiency of the progressive sampling-based Bayesian optimization by applying new search strategy, 2) to re-design the target search space from the perspective of analyzing the characteristics of learning models with progressive sampling, 3) to propose efficient dimension reduction model selection methods on the basis of the characteristics of the joint search of the dimension reduction model and the learning model. The proposed algorithms will significantly improve the search performance of learning model selection methods on big data, and greatly advance the development of automatic machine learning technology.
近年来各种机器学习模型的蓬勃发展,有力的推动了人工智能广泛而成功的应用。如何针对一个实际应用问题,从大量的机器学习模型中快速选择一个尽可能优的模型并为其设定合适的超参数,是困扰普通用户使用机器学习模型的一个重要问题。从学习模型及其超参数整合优化的角度解决学习模型选择问题,是当前大数据学习领域中的一个研究热点。但是,现有的相关工作中核心的优化效率问题还未很好的解决,距真正实用的自动化机器学习还有明显的距离。本项目采用渐进抽样与贝叶斯优化相互结合的研究思路,旨在提出适应大数据要求的快速机器学习模型选择方法,研究1)通过优化搜索策略提升基于渐进抽样的贝叶斯优化的搜索效率,2)在分析学习模型在渐进抽样下的特性的基础上优化目标搜索空间的设计,3)基于数据降维模型和学习模型联合搜索的特性提出高效的降维模型选择方法。新算法预期将明显提升学习模型选择方法在大数据上的搜索性能,推动自动化机器学习技术的发展。
作为大数据时代人工智能的核心技术,大量适用于不同应用场景和数据分析任务的机器学习模型被提出。让非专业用户在实际应用中方便快捷地使用机器学习模型,已经成为机器学习技术发展的一个瓶颈。自动化机器学习技术的目标是帮助普通用户从大量的机器学习模型中自动选择一个尽可能优的模型并为其设定适当的超参数。但是,现有的自动化机器学习工作还未很好地解决学习模型选择中核心的优化效率问题,距真正实用的自动化机器学习还有差距。本项目采用渐进抽样与贝叶斯优化相互结合的研究思路,旨在提出适应大数据要求的快速机器学习模型选择方法,研究1)基于特征选择模型和机器学习模型联合搜索的模型自动选择方法;2)一种基于样本重要度的机器学习模型自动选择方法;3)一种基于情感轮和情感词典的文本情感分布标记增强方法;4)一种融合情感轮注意力的情感分布学习方法;5)一种基于情感词和多任务卷积神经网络的文本情感分布学习方法。本项目提出的新算法和模型在高维特征空间情况下的大规模数据分析中表现出了优良的学习效果。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
监管的非对称性、盈余管理模式选择与证监会执法效率?
粗颗粒土的静止土压力系数非线性分析与计算方法
基于SSVEP 直接脑控机器人方向和速度研究
中国参与全球价值链的环境效应分析
大数据环境下基于选择性抽样的在线学习理论与算法研究
基于机器学习和增强抽样的高精度分子模拟方法的发展和应用
基于马氏抽样的机器学习理论与算法研究
基于多源渐进有界模型的运动恢复结构方法研究