Machine learning 的模型建立時需要足夠的資料量與足夠的解釋力特徵,如欲建立機器學習模型時最重要的的任務即是蒐集足夠的資料量與特徵,但往往在企業上同一客戶的資料可能會分散在不同的子公司上,或是想統整運用不同子公司各自擁有的客戶群資料以提升模型準確性,基於隱私條款的限制,子公司間是無法直接進行資料交換來做使用。在資料量與特徵不足的情況下機器學習模型的整體效果就較難做進一步的提升。
國泰資料科學團隊以 KubeFate 聯邦學習框架的基礎下開發名為 CaFe 的聯邦學習框架,使用 Helm 建立高效的聯邦學習架構,開發 Operator 用於同步不同 Namespaces 中的 ConfigMap 資料,藉由 webhook 實現自動掛載 ConfigMap 到相應的應用程式,使整個建置過程更加自動化和高效。子公司的使用者能在不交換實體資料的情況下於各自 K8S 環境共同訓練出效果比單一方自行訓練的模型效果更佳,進而提升整體模型效度。我們將與大家分享以下內容:
#聽眾收穫:透過這次的分享讓聽眾能夠了解到聯邦學習的概念,並能了解我們在評估導入聯邦學習框架時的考量點,以及對 KubeFate 框架所做過的功能測試,開發產品部署於 OKD 環境中是如何與內部資料科學平台做結合一系列完整的流程與經驗,到最後實務上的 POC 分享。
過去曾於電商、新創、電信業從事 Data Mining, Machine Learning 相關工作,現職為國泰金控數數發中心 Lab 團隊擔任資料工程師,研究資料串流相關技術等。