近期 pytorch 於學術界大放異彩,許多 AI 論文的參考實作都棄 tensorflow 而改採 pytorch,深度學習的訓練常常曠日費時,若能將參考實作在多機多卡的環境中試驗,將能夠節省許多將新算法應用在公司領域中驗證的寶貴時間。這次演講將分享採用 Kubeflow 進行 pytorch 的多機多卡的大規模深度學習訓練的經驗,以及其中可能遇到的問題,幫助聽眾趨吉避兇。
目前在遊戲串流平台日商優必達 Ubitus 擔任 RD 總監,帶領團隊應用 K8s 進行大規模 AI 訓練/曾任微軟(蘇州)資深軟體工程主管 / 趨勢科技技術經理,在公司內大力推廣 K8s 技術 / Yahoo! 產品經理 / HTC Software Project Manager / iaSolution 共同創辦人。