Chapter 1

Kubflow

概述

Kubeflow 是一个 AI/ML 平台,它汇集了多种工具,涵盖了主要的 AI/ML 用例:数据探索、数据管道、模型训练和模型服务。

本项目主要使用 kubeflow 的 Training Job(PytorchJob) 用于 AI/ML 的分布式训练。