近期 pytorch 於學術界大放異彩,許多 AI 論文的參考實作都棄 tensorflow 而改採 pytorch,深度學習的訓練常常曠日費時,若能將參考實作在多機多卡的環境中試驗,將能夠節省許多將新算法應用在公司領域中驗證的寶貴時間。這次演講將分享採用 Kubeflow 進行 pytorch 的多機多卡的大規模深度學習訓練的經驗,以及其中可能遇到的問題,幫助聽眾趨吉避兇。