Skip to content

平臺健康度

對應主管要求 ⑤ release monitoring 的入口畫面。 一頁看完整個平臺的變更節律:誰在動、過了沒、被攔截幾次、有沒有需要救援的事故。

進入:左側導覽 平臺健康度/insights/health)。

時間範圍

右上角四個 pill:

範圍涵蓋用途
近 7 天滾動 7 day看近況、抓 spike
本月月初 → 今日預設、月度節律
本季季初 → 今日季度比較
本年年初 → 今日年度趨勢

切換 range 後 KPI / 趨勢 / 排行榜 / Team 活躍度同步重算。

六個核心 KPI

總變更數    通過率      失敗率
風險攔截    救援動作    平均審批時間

每張 tile 同時顯示當期值 + 與上一期比較 的箭頭 + 上一期絕對值,例如:

▲ 12% vs 上月(373)

數字怎麼來:

KPI來源
總變更數plan 在當期 created_at 的計數
通過率task_run.status='DONE' ÷ (DONE + FAILED)
失敗率1 − 通過率
風險攔截plan_check_run.result.results[].status='ERROR' 不重複 (project, plan_id)
救援動作audit_logbb.tasks.rollback / restore / cancel 計數
平均審批時間issue.updated_at − issue.created_atstatus='DONE' 上的均值

變更趨勢圖

整段時間區間以每日為 bucket,疊三條 series:

  • 實線(深綠)— 每日變更數
  • 虛線(紅)— 每日失敗率(0–1 比例,疊在同一張圖)
  • 黃點 — 每日風險攔截數

折線每天會有一個白底圓點標記,讓單日數字仍然清楚可讀。

X 軸最多顯示 5 個日期 label,Y 軸自動依當期最大值決定刻度(資料少時刻度數量縮減避免重複)。

風險規則攔截排行

當期 Top 5 被觸發的規則。每列:

  • 規則 ID(例:stmt.require-no-delete
  • 嚴重度 chip(高 / 中 / 低)
  • 觸發次數
  • 占比(佔 Top 5 總觸發次數)

DBA 看這個決定下一輪規則調整的優先序。

最近救援動作

最多 8 筆,倒序。每筆顯示:

  • 時間(相對 / 絕對切換 hover 可看)
  • 專案
  • 動作類型(rollback / restore / cancel)
  • 操作者

點專案會跳對應專案的 audit log;點動作可看完整 audit 細節。

各 Team 活躍度

依 project(= team)一行一列,欄位:

說明
TEAMproject 名 + 貢獻者人數
變更當期 plan 數
通過率同 KPI
平均耗時同 KPI 但分 team
攔截風險攔截不重複 plan 數
救援救援動作數(Phase 5C 後接)
最近活動「今天 / 昨天 / N 天前 / N 週前」相對時間(出於隱私只精確到日)
狀態活躍 / 升中 / 衰退 chip

最近活動只精確到「日」,避免回推員工出勤節律。

資料新鮮度

頁面右上角顯示:

資料截至 2 分鐘前

代表此次資料的計算時間。Argus 後端 5 分鐘內快取同一個 range 的結果,避免每次切 range 都重跑 SQL。KPI 不是 real-time,剛 commit 的變更可能要等下一輪 cache miss 才會被計入。

需要即時數字 → 去 /audit-log 看當下流水。

匯出 CSV

右上 匯出 CSV button。打包成 zip,含:

  • kpis.csv — 6 個 KPI 的當期 / 上一期 / delta
  • trend.csv — 每日 bucket 全展開
  • teams.csv — 各 team 一列

本 Phase 5E 還在實作中;按鈕現在 disabled。預計 Sprint 5C 上線。

何時看 / 怎麼用

  • DBA 早會 — 看通過率 / 風險攔截,決定本日重點審批。
  • 平台月報 — 截月度 KPI 截圖 + 趨勢圖,丟給主管。
  • 災後檢討 — 從救援動作回溯哪筆 rollback / restore 觸發了。
  • 規則調整 — 風險規則排行決定下一輪 plan-check 規則 tuning。

相關

Argus — 公司內部資料庫變更審計平台