KubeSummit 2025

講者資訊

蕭兆洋(Charles Hsiao)

MaiCoin Group
SRE

深信區塊鏈能如同20世紀末的網際網路般改變世界的發展。

做過Developer、QA、目前則是在SRE的世界中探索各種可能性，喜歡嘗試各種嶄新的開源工具和技術。日常活動範圍包含海面下、山林中、或是雲端上。

演講議程

2025-10-22 | 13:30 - 14:10 DE 會議室

當AIOps走入K8s：Prometheus可觀測性進化

在 Kubernetes Cluster 管理實務中，我們經常面臨這樣的運維困境：Pod 突然 OOM、節點資源意外耗盡、服務延遲無預警飆升，而運維團隊總是在告警響起後才開始緊急救火。想像一下，如果你的 Kubernetes Cluster 能夠像資深 SRE 一樣，具備提前洞察問題並主動調整的智慧能力會如何？

本次演講將深入探討如何運用 Python PyCaret 的 AutoML 技術，充分挖掘 Prometheus metrics 的潛力，構建實用且高效的 AIOps 平台。我們將系統性地剖析四大類型的 Prometheus metrics（Counter、Gauge、Histogram、Summary）在不同運維場景下的最佳應用策略，建立對應的機器學習模型選擇決策框架。

內容涵蓋從時間序列預測模型處理週期性指標變化，到異常檢測算法即時識別系統異常，再到分類回歸模型精準預測資源瓶頸時間點。我們將進一步剖析如何運用外生變數和多維度 metrics 集合，將單一指標分析升級為多元特徵的智能預測系統，並考量實際監控環境的不穩定性，審視不同模型的缺失值與異常點的穩健性，大幅提升預測準確性。

此外，演講還將分享如何結合 LLM 技術將複雜的機器學習預測結果轉化為清晰易懂的運維洞察報告，並說明如何將這些智能預測成果無縫整合到 Kubernetes 的自動化資源調度和故障自癒機制中。

讓我們一起從傳統的被動監控模式，邁向真正的主動預測運維，實現 AIOps 的核心價值！

《聽眾收穫》

AIOps 平台建構能力：

掌握 PyCaret AutoML 實戰應用技巧
建立四大 Prometheus metrics 類型對應的機器模型選擇決策框架
學會運用外生變數和多維度特徵工程提升預測模型準確性
理解機器學習模型如何處理缺失值與異常點的穩健性

智能運維轉型思維：

掌握將機器學習預測結果轉化為 Kubernetes 自動化資源調度的實施策略
學會運用 LLM 技術生成人類可理解的運維洞察和決策建議
理解從傳統被動監控向主動預測運維模式的轉換路徑和關鍵要素

實戰應用與組織價值：

獲得可立即複製的 AIOps 實施方法論和最佳實踐案例
掌握團隊 AIOps 能力建設的評估指標和推動策略
學會設計故障自癒系統的核心原則和風險控制機制

詳細介紹