KubeSummit 2025

當AIOps走入K8s:Prometheus可觀測性進化

在 Kubernetes Cluster 管理實務中,我們經常面臨這樣的運維困境:Pod 突然 OOM、節點資源意外耗盡、服務延遲無預警飆升,而運維團隊總是在告警響起後才開始緊急救火。想像一下,如果你的 Kubernetes Cluster 能夠像資深 SRE 一樣,具備提前洞察問題並主動調整的智慧能力會如何?


本次演講將深入探討如何運用 Python PyCaret 的 AutoML 技術,充分挖掘 Prometheus metrics 的潛力,構建實用且高效的 AIOps 平台。我們將系統性地剖析四大類型的 Prometheus metrics(Counter、Gauge、Histogram、Summary)在不同運維場景下的最佳應用策略,建立對應的機器學習模型選擇決策框架。

內容涵蓋從時間序列預測模型處理週期性指標變化,到異常檢測算法即時識別系統異常,再到分類回歸模型精準預測資源瓶頸時間點。我們將進一步剖析如何運用外生變數和多維度 metrics 集合,將單一指標分析升級為多元特徵的智能預測系統,並考量實際監控環境的不穩定性,審視不同模型的缺失值與異常點的穩健性,大幅提升預測準確性。


此外,演講還將分享如何結合 LLM 技術將複雜的機器學習預測結果轉化為清晰易懂的運維洞察報告,並說明如何將這些智能預測成果無縫整合到 Kubernetes 的自動化資源調度和故障自癒機制中。


讓我們一起從傳統的被動監控模式,邁向真正的主動預測運維,實現 AIOps 的核心價值!


《聽眾收穫》

AIOps 平台建構能力:

  • 掌握 PyCaret AutoML 實戰應用技巧
  • 建立四大 Prometheus metrics 類型對應的機器模型選擇決策框架
  • 學會運用外生變數和多維度特徵工程提升預測模型準確性
  • 理解機器學習模型如何處理缺失值與異常點的穩健性

智能運維轉型思維:

  • 掌握將機器學習預測結果轉化為 Kubernetes 自動化資源調度的實施策略
  • 學會運用 LLM 技術生成人類可理解的運維洞察和決策建議
  • 理解從傳統被動監控向主動預測運維模式的轉換路徑和關鍵要素

實戰應用與組織價值:

  • 獲得可立即複製的 AIOps 實施方法論和最佳實踐案例
  • 掌握團隊 AIOps 能力建設的評估指標和推動策略
  • 學會設計故障自癒系統的核心原則和風險控制機制
蕭兆洋(Charles Hsiao)

講者

蕭兆洋(Charles Hsiao)

MaiCoin Group
SRE
LEVEL

中階

TAGS
可觀測性
AIOps
機器學習 K8s 實例