ひとことで言うと#
障害対応当番(オンコール)のローテーション・エスカレーション・報酬を設計し、対応品質を維持しつつエンジニアの燃え尽きを防ぐ運用フレームワーク。
押さえておきたい用語#
- On-Call Rotation(オンコール ローテーション)
- 障害対応の当番を一定周期でチームメンバーに回す仕組みを指す。
- Escalation Policy(エスカレーション ポリシー)
- ファーストレスポンダーが対応できない場合に上位の対応者に引き継ぐルールを指す。
- Pager Load(ページャー ロード)
- オンコール期間中に受けるアラートの件数と対応負荷。持続可能な上限の目安がある。
- Toil Budget(トイル バジェット)
- SREの工数のうち手動の繰り返し作業に充てる上限。50%以下がGoogleの推奨である。
- Runbook(ランブック)
- 既知のアラートに対する標準化された対応手順書。オンコール対応の属人化を防ぐ手法。
オンコール管理の全体像#
こんな悩みに効く#
- 特定のエンジニアにオンコール負担が偏っている
- 深夜の呼び出しが多くてエンジニアが疲弊している
- アラートの大半がアクション不要の誤報で対応モチベーションが下がっている
基本の使い方#
具体例#
エンジニア40名のBtoB SaaS。オンコールは「システムに詳しい人」に偏っており、特定の3名が月の 80% を担当していた。3名のeNPSは -15 まで低下。
ローテーション制を導入。全SREメンバー8名で週次ローテーション、Primary + Secondary体制。深夜呼び出し1回あたり 5,000円 の手当 + 翌日午前の代休を制度化。
| 指標 | Before | After |
|---|---|---|
| 特定3名の負担割合 | 80% | 12.5%(8名均等) |
| 深夜呼び出し/月/人 | 6回 | 1.5回 |
| SREメンバーのeNPS | -15 | +22 |
半年間の離職者はゼロ。以前は退職を考えていたメンバーも「公平になった」と評価。
月間売上8億円のEC。オンコールのPager Loadが 週25件 あり、そのうちアクション不要が 60%。エンジニアが「どうせ誤報」と思い始め、本当に重要なアラートの対応が遅れるようになっていた。
月次のPager Loadレビューを開始。Top5のアラートを分析。
| アラート | 週間件数 | 対応 |
|---|---|---|
| DB接続エラー(一時的) | 8 | 自動リトライで解消。アラート削除 |
| メモリ使用率80%超 | 5 | 閾値を90%に変更 |
| バッチジョブタイムアウト | 4 | タイムアウト値を調整 |
| 外部API応答遅延 | 3 | Circuit Breaker導入 |
| ディスク使用率 | 3 | 自動ログローテーション |
3ヶ月で 週25件 → 週4件 に削減。アクション不要率も 60% → 12% に改善。
エンジニア6名のスタートアップ。これまで障害時は「気づいた人が対応する」方式で、深夜にCTOの携帯に電話がかかる状態が続いていた。
6名で週次ローテーション(Primary + Secondary)を導入。少人数のためRunbookを徹底的に整備し、誰でも対応できる体制を目指した。
主要な15パターンのアラートにRunbookを作成。各Runbookは「症状確認(30秒)→ 対応手順(3ステップ以内)→ エスカレーション基準」の構成で統一した。
導入前はCTOが月 20回 呼ばれていたが、ローテーション + Runbook整備で全メンバーが対応可能になり、CTOへのエスカレーションは月 2回 に減少。CTOが本来の開発業務に集中できるようになった。
やりがちな失敗パターン#
- ローテーション人数が少なすぎる — 2名だと1週おきにオンコールになり燃え尽きる。最低3名、理想は6名以上で回す
- 報酬なしでオンコールを「義務」にする — プライベートの時間を拘束する以上、手当や代休がないとモチベーションが維持できない
- アラートの誤報を放置する — アクション不要率が50%を超えると「アラート=ノイズ」という認識が定着し、本当の障害を見逃す
- Runbookを更新しない — 半年前のRunbookはインフラ変更で使えなくなっていることがある。月1回の棚卸しで正確性を確認する
まとめ#
オンコール管理はローテーション・エスカレーション・継続的改善の3本柱で、障害対応の品質とエンジニアの健全性を両立するフレームワーク。ローテーションで負担を公平に分散し、報酬・代休で制度的に補償する。Pager Loadの月次レビューでアラートの根本対応を進め、「呼ばれない状態」 を目指すのが最も重要な改善方針になる。