icon 2022-06-23 20:00-21:00 icon 线上

浅析 Kubernetes 对 GPU 虚拟化、池化技术的集成

分享内容简介

对比 NVIDIA 对 Kubernetes 中 GPU 支持的官方实现,结合 GPU 虚拟化、池化等技术特点,分析利用 kube-scheduler 拓展技术,进行 GPU 调度增强的实现方式,及其在 KubeSphere 中的集成与使用。

讲师简介

韦伟,趋动科技研发工程师,五年云原生相关经验,开源贡献者。

分享大纲

直播时间

2022 年 06 月 23 日 20:00-21:00

直播地址

B 站 https://live.bilibili.com/22580654

Q & A

Q1:对比 VMware 的 bitfusion 与 OrionX 在架构的实现层面有哪些不同?如:性能,上层机器学习框架的使用,硬件的支持等,希望做一个横向的对比。

A:bitfusion 目前看只依赖于 VMware 企业平台支持,目前只有远程调用的功能,OrionX 全平台支持,包括 KVM 虚机、容器和裸金属服务器,硬件支持上我们除了 NVIDIA 的卡目前还支持国产的卡。

Q2:OrionX 虚拟化后的资源是否可以针对视频流进行处理?

A:目前已经支持基于 NVIDIA 视频流的处理能力。

Q3:远程 GPU 加速这种情况下 Pod 的数据传输到 OrionX-server 传输的网络带宽和延迟是否有要求?

A:本地调用的话没有什么要求,远程调用建议使用 RDMA 网络。

Q4:如何实现 GPU 加速网络和 Pod 业务网络的之间的分离?

A:加速网络建议走 RDMA,我们 server 启动的时候会配置 RDMA 网口,让 server 的流量直接走 RDMA。

Q5:OrionX GPU 虚拟化技术,是否获得 NVIDIA 官方认证,如果 NVIDIA 对相关驱动程序停更,或者对某款 GPU 卡停止支持,OrionX 是否会受到影响?

A:我们是基于 NVIDIA 公开的 cuda API 来实现,不受限 GPU 卡的支持。

Q6:OrionX GPU 虚拟化是否仅支持 NVIDIA 公司的 GPU 产品,面对国产化和信创的趋势,OrionX 是否有相关替代性方案?

A:目前已经支持国产卡,后续会支持更多国产卡。

Q7:OrionX GPU 虚拟化的集中池化和远程调用 ,这与 NVIDIA 原生的直接调度相比,性能会有多大程度的损失?是否有相关性能对比?

A:性能损耗跟网络关系比较大,在 RDMA 环境下通过 TensorFlow benchmark 测试性能损耗在 5% 以内。

Q8:OrionX 能否对大显存显卡进行分割,例如某个显卡 A 的显存有 24G、那么我需要启动三个 8G 的 Pod 去使用 A 的资源,该如何进行?

A:我们支持任意比例的切分,算力最小 1%。显存最小 1MB。

Q9:请问是否支持 GPU 卡级别的 binpack/spread 策略?score 阶段打分函数如何定义?

A:我们支持不同的调度测试,可以根据客户的需求进行配置。

Q10:OrionX 项目是否开源?

答:目前暂无开源计划。

Q11:请教下在容器训练和机器上训练,有区别吗?

A:没有太大区别,容器使用更方便。

Q12:OrionX 对于异构计算上有没有特别的考量?或者说是特殊的优化?

A:我们在底层也做了很多优化,在某些场景中甚至比本地性能更好。

Q13:请问是否支持差异化的 QoS 级别?支持哪些混部能力?

A:我们支持统一资源池管理,无论研发、测试、训练还是推理可以在一个集群统一管理。支持在线离线的混部。

Q14:OrionX 目前都支持 NVIDIA 的哪些系列的 GPU 卡,另外, NVIDIA 消费级的 Geforce 卡因其价廉物美,是否也可以通过 OrionX 用来池化,以降低 GPU 的投资成本?

A:我们支持卡的类型跟 cuda 版本有关,只要在我们支持的 cuda 版本范围内的卡,我们都可以支持。

PPT 下载

可扫描官网底部二维码,关注 「KubeSphere云原生」公众号,后台回复 20220623 即可下载 PPT。