6f0db6fd12fff556c87c05a72a973fdf.png

注 :以下内容来自华为云原生团队原创内容,文章首发于容器魔方微信公众号,未经允许,不得转载

Volcano是一个基于Kubernetes的云原生批量计算平台,也是CNCF的首个批量计算项目。

b9fddaae8bf3adb345cc8fc5c47b3165.png

Volcano 主要用于AI、大数据、基因、渲染等诸多高性能计算场景,对主流通用计算框架均有很好的支持。它提供高性能计算任务调度,异构设备管理,任务运行时管理等能力。本篇文章将从Volcano架构、Volcano核心概念及功能、Volcano Code Tour、平台组件安装部署等方面来带大家认识Volcano。


Volcano架构

Volcano全景

Volcano是基于Kubernetes的高性能批量计算平台,目前支持几乎所有的主流计算框架,包括MindSpore、TensorFlow、Kubeflow、MPI、PyTorch、飞浆、Spark、HOROVOD 等。

228bb43ad22aac2fb43c23ac3595c912.png
Volcano支持的部分计算框架

计算框架遇到的问题:

  • 1:1的operator部署运维复杂
  • 不同框架对作业管理、并行计算等要求不同
  • 计算密集高,资源需求波动大,需要高级调度能力

Volcano面向主流计算框架提供:

  • 统一容器基础设施,提高资源利用率
  • 通用作业管理、队列Fair-share, Gang, bin-pack等高级调度算法
  • 简化运维管理
Volcano整体架构

Volcano利用声明式的CRD定义我们的API,主要有3个核心的API,Volcano Job、PodGroup、Queue。

Volcano Job 是对高性能任务的通用定义,PodGroup提供了Job中Task的管理能力,Queue 为任务的分类提供了基础。

152b69ee5b8da56e43672557fef4addb.png
Volcano的架构

Volcano 核心组件主要包含三个:Admission、ControllerManager、Scheduler 。Admission对Volcano CRD API提供校验能力;ControllerManager负责对Volcano CRD进行资源管理;Scheduler对任务提供丰富的调度能力。

Volcano工作流程

从零开始运行Volcano作业:

1)用户创建一个 Volcano 作业

2)Volcano Admission 拦截作业的创建请求,并进行合法性校验

3)Kubernetes 持久化存储 Volcano Job 到 ETCD

4)ControllerManager 通过 List-Watch 机制观察到Job 资源的创建,创建任务(Pod)

5)Scheduler 负责任务的调度,绑定 Node

6)Kubelet Watch 到 Pod的创建,接管 Pod 的运行

7)ControllerManager 监控所有任务的运行状态,保证所有的任务在期望的状态下运行


Volcano核心概念及功能

Volcano核心概念

Queue

  • Queue的概念源于 Yarn,它是Cluster 级别的资源对象,可为其声明资源配额,也可由多namespace 共享,并且提供 soft isolation

PodGroup

  • PodGroup是任务的分组,它与 queue 绑定,占用队列的资源。它与 Volcano Job 是一对一的关系;也可为其声明 Scheduling 条件

Volcano Job

  • 它是批量计算作业的定义,支持定义作业所属队列、生命周期策略、所包含的任务模板以及持久卷等信息
作业管理插件

e8189637787526baffe463063ef0b818.png

svc:提供不同类型任务之间互访能力

env:任务索引,例如 Tensorflow Worker index

ssh:ssh 秘钥对创建及挂载,主要供 MPI 作业使用

Scheduler架构

Scheduler支持动态配置和加载。

97a00ab48523eaa7e79baa0a4de001f4.png
核心调度算法
  • Gang Scheduling
  • Fair Share
  • Preempt & Reclaim
  • Reserve & Backfill
  • Topology Aware Scheduling
  • GPU Sharing

Volcano Code Tour

cmd目录是Volcano所有组件启动的入口;config 是Volcano的配置;defs 是安装时的配置;docs 是Volcano的设计文档;example 提供了简单的例子,hack 提供安装时的脚本;installer 提供安装的模板。

ea531439b1cbd8e8f2489c31ef99067b.png

pkg 是最重要的目录,里面包含了 api、controller、scheduler 、webhook 等代码。test 提供了e2e测试用例, vendor是依赖库。


安装部署

Volcano Install

Volcano安装部署有多种方式:若已存在K8S集群,建议通过 Helm方式安装部署,该方式支持自定义安装配置;开发者建议通过Development Yaml方式部署。

对于开发者,Volcano已内置一键式安装部署脚本,路径为 volcano. sh/volcano/hack/local-up-volcano. sh。运行该脚本时,默认会使用kind创建 Docker in Docker的模拟集群,并安装部署Volcano。

Volcano 组件

正确安装部署后,将生成4个组件,分别为:Volcano-admission、Volcano-admission-init、Volcano-controllers、 Volcano-scheduler ,其中admission-init以作业的方式生成证书。

e4cd9659dce02e1e4921cae07f5b4faa.png

eceba4ce3ce6d6dbc87db03f94c3ab56.png

欢迎点击下列链接关注容器魔方,我们将为你提供:

容器魔方​www.zhihu.com
faef04ede6eb954e5170d17f21fca5c5.png
  • 我们每日更新关于云原生技术动态、实战进阶、应用案例等;
  • 入群与行业技术大牛,1万+云原生爱好者一起链接学习;
  • 不定期邀请云原生OG级元老分享技术实战
  • …………
Logo

一站式 AI 云服务平台

更多推荐