New AI (artificial intelligence) applications perform dynamic learning through real-time interactions with environments. The vector intensive computation of conventional AI applications can be represented as static directed acyclic graphs(DAG), but new AI applications usually have distinct properties including dynamically-changed computation, real-time task scheduling, and concurrent heterogeneous tasks. In this project, we will study the collaborative scheduling techniques of large-scale machine learning systems for dynamic real-time AI applications, mainly including the following aspects. First, focusing on the property of dynamically-changed computation, we will study the evolving computation model for dynamic tasks, so as to realize dynamic adjustment of task graphs based on the feedback of the environment. Second, focusing on the requirement of real-time task scheduling, we will study delay-bounded distributed scheduling, using relaxed consistency model to realize high-throughput, low-latency scalable task scheduling and real-time action selection. Last, focusing on the property of concurrent heterogeneous tasks, we will study heterogeneous resource collaboration mechanism based on dynamic requirement resolution, so as to realize adaptive on-demand allocation of various computation, storage, and networking resources.
以强化学习为代表的新型人工智能(AI)应用通过与环境的实时交互进行动态学习。传统AI应用的向量密集型计算通常可表示为静态的有向无环图(DAG),而新型AI应用则具有计算动态变化、实时任务调度、任务异构并发等新特点。本项目将对面向动态实时AI应用的大规模机器学习系统协同调度技术开展研究,主要包括如下内容。首先,研究大规模机器学习系统中动态任务的演化计算模型,支持基于环境反馈的任务图动态调整。其次,研究延迟有界的分布式调度技术,基于松弛一致性模型实现高吞吐量、低延迟的可扩展任务调度和实时动作选择。最后,研究基于动态需求分解的异构资源协同机制,实现计算、存储和网络等多种资源的自适应按需分配。
很多新型的AI应用无法采用传统的学习方式,而是需要与环境进行动态不间断的交互,并且采取一系列动作来实现特定目标。这类以强化学习为代表的新型AI应用具有与传统AI应用完全不同的计算特点和需求。项目组从2019年开始开展了面向动态实时人工智能应用的大规模机器学习系统协同调度技术的研究,取得如下成果:.(1)设计了动态机器学习任务的演化计算模型。面向任务动态变化的新型AI系统,实现了异构资源的协调机制,提出了新的演化计算模型,以及动态机器学习任务在该模型中的表示。提出分布式机器学习应用程序到DAG图的抽象映射。.(2)实现了延迟有界的可扩展分布式任务调度。实现了多级内存存储之间的自适应动态调整机制,设计了基于主备机制(Primary-Backup)的多级存储快速失效恢复方法。实现了的多级状态更新一致性模型,设计了高可靠、高可用的元数据组织方法。.(3)设计了基于动态需求分解的异构资源协同机制。提出了基于DAG图的需求分析方法,能够预测各项计算任务的计算、内存存储、网络传输等资源的预计消耗情况。设计了协同调度机制,能够按需分配I/O带宽、CPU时间、动态内存、网络带宽等多种资源。.项目组在NeurIPS、ICASSP、INFOCOM、TC等著名期刊和会议发表论文27篇,其中CCF-A类期刊和会议论文17篇、CCF-B类期刊和会议论文3篇。
{{i.achievement_title}}
数据更新时间:2023-05-31
基于分形L系统的水稻根系建模方法研究
涡度相关技术及其在陆地生态系统通量研究中的应用
基于SSVEP 直接脑控机器人方向和速度研究
拥堵路网交通流均衡分配模型
自然灾难地居民风险知觉与旅游支持度的关系研究——以汶川大地震重灾区北川和都江堰为例
面向大规模多步学习问题的学习分类元系统技术研究
面向大规模数据的机器学习算法研究
面向大规模机器学习的高效优化算法研究
面向控制与实时调度的协同设计研究