MaiCoin Group
SRE
深信區塊鏈能如同20世紀末的網際網路般改變世界的發展。
做過Developer、QA、目前則是在SRE的世界中探索各種可能性,喜歡嘗試各種嶄新的開源工具和技術。日常活動範圍包含海面下、山林中、或是雲端上。
在 Kubernetes Cluster 管理實務中,我們經常面臨這樣的運維困境:Pod 突然 OOM、節點資源意外耗盡、服務延遲無預警飆升,而運維團隊總是在告警響起後才開始緊急救火。想像一下,如果你的 Kubernetes Cluster 能夠像資深 SRE 一樣,具備提前洞察問題並主動調整的智慧能力會如何?
本次演講將深入探討如何運用 Python PyCaret 的 AutoML 技術,充分挖掘 Prometheus metrics 的潛力,構建實用且高效的 AIOps 平台。我們將系統性地剖析四大類型的 Prometheus metrics(Counter、Gauge、Histogram、Summary)在不同運維場景下的最佳應用策略,建立對應的機器學習模型選擇決策框架。
內容涵蓋從時間序列預測模型處理週期性指標變化,到異常檢測算法即時識別系統異常,再到分類回歸模型精準預測資源瓶頸時間點。我們將進一步剖析如何運用外生變數和多維度 metrics 集合,將單一指標分析升級為多元特徵的智能預測系統,並考量實際監控環境的不穩定性,審視不同模型的缺失值與異常點的穩健性,大幅提升預測準確性。
此外,演講還將分享如何結合 LLM 技術將複雜的機器學習預測結果轉化為清晰易懂的運維洞察報告,並說明如何將這些智能預測成果無縫整合到 Kubernetes 的自動化資源調度和故障自癒機制中。
讓我們一起從傳統的被動監控模式,邁向真正的主動預測運維,實現 AIOps 的核心價值!
《聽眾收穫》
AIOps 平台建構能力:
智能運維轉型思維:
實戰應用與組織價值: