我們在銀行業中使用全地端 Kubernetes(K8s)進行日常運維和故障排除,分享過去幾年遇到的實際案例。這些事件從簡單的 502/504 錯誤、監控數據、網路流量問題、數據庫異常,一直到硬體故障等多個面向的排查。我們希望通過分享這些經驗,幫助其他人避免重複我們的痛苦,並提升系統穩定性,早點解決問題回家。
我是金融業 ML k8s 平台的管理者,致力於提升服務效能及監控透明性。目前,我主要專注於平台的 trace、metrics 和 log 的大結合,確保在部署運作時的資安。同時,我也積極探索新技術,以優化平台的整體表現,並提供更穩定、安全的服務體驗。
中階
ROOM6F DE會議室
FORM現場演講
LANGUAGE中文
TAGS 企業 K8s 實例
K8s 失敗經驗