kubeflow 本项目使用kubeflow做分布式深度学习训练,可自行参考kubeflow文档。 PyTorch Training (PyTorchJob) 这里有一个完整的 pytorch ddp 使用 kubeflow 的例子 pytorch-ddp-example