Reinforcement learning plays a key role in achieving the goal of autonomous decision making, which is a core research subfield of machine learning. Classical reinforcement learning relies on the assumption of static environment, which disables the previous approaches in real-world applications involved in high-dynamic environments. This proposal targets the challenges of reinforcement learning in high-dynamic environments, mainly including complex learning objectives, fluctuating parameters of environments, adversarial rewarding mechanisms, and high evaluation costs. We plan to develop highly efficient derivative-free optimization methods for complex policy search tasks, design reusable reinforcement modeling approach for fitting fluctuating environments, propose adversarial policy search methods tackling competitive rewards, and investigate low-cost reinforcement learning algorithms through utilizing multi-fidelity simulators. We will integrate our research in these directions as a systematic methodology for reinforcement learning in high-dynamic environments, as well as develop an open-source algorithm library, which will support advanced defense and enterprise applications that we are involved in. This project will deliver 8 to 10 papers published in IEEE Trans., CCF-A level avenues, domestic top journals and alike, 2 to 3 domestic patents, and will also support several graduate students.
强化学习是实现智能自主决策的核心研究领域之一,是机器学习的重要分支领域。然而经典强化学习方法隐含的静态环境假设,使其难以适应实际应用所处的高动态环境。本项目针对高动态环境中强化学习面临的主要挑战,包括复杂的学习目标、波动的环境参数、竞争的奖赏机制、高昂的评估代价等,研究策略搜索理论与方法:发展面向复杂策略搜索的高效非梯度优化方法、设计适应环境波动的可重用强化学习建模方法、提出有效处理竞争性奖赏的对抗策略搜索方法、探索构建和利用多保真度环境的低代价强化学习方法。整合研究工作,形成面相高 动态环境的策略搜索理论体系、开发算法库,为国防与企业应用提供支持。计划在IEEE Trans、CCF-A类级别国际期刊和会议、国内一级学报发表论文8-10篇,申请专利2-3项,培养研究生多名。
强化学习是实现智能自主决策的核心研究领域之一,是机器学习的重要分支领域。然而经典强化学习方法隐含的静态环境假设,使其难以适应实际应用所处的高动态环境。本项目针对高动态环境中强化学习面临的主要挑战,包括复杂的学习目标、波动的环境参数、竞争的奖赏机制、高昂的评估代价等,研究策略搜索理论与方法。在理论基础方面,项目成果突破了以往认为环境学习必然遭受平方级的累积误差的领域认知,将误差的数学上界降至线性,使得环境学习成为可行技术路径;分析了最优回放样本池权重的构成,揭示了以往回放样本利用的非最优性;证明了最大化最终回报的Bandit算法可具有平均回报算法相同的样本效率。在算法方面,提出了基于对抗模仿学习的环境学习方法,验证了零试错代价强化学习的可能;探索了多种可应对环境变化的信息复用强化学习算法,可处理观测空间、转移函数等环境因素的变化;提出了在非子模问题上依然有效的非梯度优化算法。在应用方面,基于对抗模仿学习的环境学习与强化学习技术路线在淘宝、滴滴等场景验证了有效性;在推荐系统的应用工作,推动了强化学习在推荐系统领域的发展;构建了离线强化学习评测基准,强调了在真实任务中强化学习技术需关注的问题。以上成果发表论文24篇,其中,国际会议18篇(包括顶级国际会议NeurIPS、AAAI、IJCAI、KDD等CCF-A类会议16篇),国际期刊6篇,包括一流国际期刊《Artificial Intelligence》、《IEEE Transactions on Pattern Analysis and Machine Intelligence》等;项目所发表论文目前累计被引用超过470次;发表专著一部。申请国家发明专利3项,其中1项已获得授权。项目团队获得ICAPS'21 L2RPN with Trust 2021 强化学习电网控制全球算法比赛冠军。项目负责人获得CCF-IEEE CS青年科学家奖,培养的博士生获得江苏省人工智能学会优秀博士论文奖和南京大学优秀博士学位论文奖。
{{i.achievement_title}}
数据更新时间:2023-05-31
玉米叶向值的全基因组关联分析
拥堵路网交通流均衡分配模型
基于公众情感倾向的主题公园评价研究——以哈尔滨市伏尔加庄园为例
基于协同表示的图嵌入鉴别分析在人脸识别中的应用
一种改进的多目标正余弦优化算法
针对大规模环境下复杂任务的策略搜索强化学习方法研究
面向搜索排序的主动学习理论
基于迁移学习的图像搜索理论与方法研究
面向tableau模型的逻辑强化学习理论及方法研究