ブレイムレス・ポストモーテム

英語名 Blameless Postmortem
読み方 ブレイムレス ポストモーテム
難易度
所要時間 1〜2時間
提唱者 Google SRE / Etsy
テンプレート あり ↓
目次

ひとことで言うと
#

障害やミスが起きたとき、個人を責めず、仕組みの問題に焦点を当てて振り返る手法。GoogleのSREチームやEtsyのエンジニアリング文化から広まった。「誰がやらかしたか」ではなく「なぜシステムがそれを防げなかったか」を問う。

押さえておきたい用語
#

押さえておきたい用語
ポストモーテム(Postmortem)
もともと医学用語で「死後検査」を意味し、ITでは障害やインシデント発生後に行う振り返りを指す。
ブレイムレス(Blameless)
個人を非難しないという原則。ミスをした人を罰するのではなく、ミスを誘発した環境や仕組みの改善にフォーカスする考え方。
タイムライン
インシデント発生から復旧までの時系列記録。誰が・何時に・何をしたかを客観的に並べたもので、ポストモーテムの土台になる。
アクションアイテム
振り返りの結果として決まる具体的な改善施策。担当者・期限・完了条件を明記する。

ブレイムレス・ポストモーテムの全体像
#

インシデント発生から改善定着までの全体フロー
1. 事実を集めるタイムラインを客観的に再構成2. 原因を探る「なぜ防げなかった」を仕組みから問う3. 改善策を決めるアクションアイテムに担当と期限をつける4. 共有するドキュメントを全社に公開原則: 人を責めない。仕組みを直す。「誰がミスしたか」ではなく「何がミスを許したか」を問う
ポストモーテム実施の進め方
1
48時間以内に開催
記憶が鮮明なうちに関係者全員を集める
2
タイムラインを再構成
ログ・チャット・アラートから時系列を客観的に整理
3
根本原因を議論
「なぜ」を繰り返し、仕組みの穴を特定する
改善を実行・追跡
アクションアイテムを起票し完了まで追跡する

こんな悩みに効く
#

  • 障害が起きるたびに犯人探しになり、チームの雰囲気が悪化する
  • 同じような障害が繰り返し発生している
  • 振り返りはしているが、改善策が実行されずに終わる

基本の使い方
#

インシデント発生後48時間以内に招集する

時間が経つと記憶が薄れ、感情も冷めて「もういいか」となる。早めに開催する。

  • 対応に関わった全員を招集(エンジニア、運用、カスタマーサポートなど)
  • ファシリテーターは当事者以外が望ましい
  • 冒頭で「この場は個人を責める場ではない」と明言する
タイムラインを客観的に再構成する

「誰が悪かったか」ではなく「何が起きたか」をファクトベースで並べる。

  • アラートのログ、Slackの会話、デプロイ履歴を時系列に整理
  • 「10:03 Aさんがデプロイを実行」は事実。「Aさんがテストを怠った」は解釈(この段階では書かない)
根本原因を仕組みの観点から探る

「なぜ」を5回繰り返すなどして、表面的な原因の奥にある構造的問題を掘る。

  • なぜデプロイ後にエラーが出た? → テストが不足 → なぜ? → CIにそのテストがなかった → なぜ? → テスト追加のプロセスが未定義
  • 着地点は必ず「仕組み・プロセス・ツール」にする
アクションアイテムを決め、追跡する

「気をつける」は改善策ではない。具体的なタスクに落とす。

  • 各アクションに担当者・期限・完了条件を設定
  • 次の週次ミーティングで進捗を確認する
  • ポストモーテムドキュメントは全社に公開する

具体例
#

例1:ECサイトの決済障害を振り返る

インシデント概要: ブラックフライデーセール中に決済APIがタイムアウトし、約2時間で 推定売上450万円 を失った。

タイムライン(抜粋)

時刻事象
14:02セール開始、トラフィックが通常の8倍に急増
14:15決済API応答時間が3秒を超過、アラート発報
14:22エンジニアAがスケールアウトを試みるがDB接続数上限に到達
14:45DB接続プールの上限を引き上げ、復旧開始
16:10完全復旧を確認

根本原因の分析(ブレイムレスで)

  • 「Aさんの対応が遅かった」→ ではなく「セール時の負荷見積もりプロセスがなかった」
  • 「DBの設定が甘かった」→ ではなく「負荷テストがセールの想定トラフィックをカバーしていなかった」

アクションアイテム

  1. セール前に想定トラフィックの2倍で負荷テストを実施する手順書を作成(担当: インフラチーム、期限: 2週間)
  2. DB接続プールの動的スケーリングを導入(担当: SRE、期限: 1か月)

翌年のブラックフライデーではトラフィックが前年比 1.5倍 に増えたが、決済障害はゼロで乗り切った。

例2:製造業の品質事故をチームで振り返る

インシデント概要: 自動車部品メーカー(従業員200名)で、出荷前検査をすり抜けた不良品が顧客に届いた。回収コスト 約300万円

従来の振り返り(ブレイムあり)

  • 「検査担当のBさんが見落とした」→ Bさんが始末書を提出 → 翌月、Bさんが退職

ブレイムレスに切り替えた振り返り

  • 検査は1人体制で1日200個を目視チェック → 疲労によるエラー率は 午後に3倍 になるデータが判明
  • 検査基準書のフォントが小さく、照明も暗かった → 物理的に見えにくい環境
  • ダブルチェック体制がなく、1人のミスが即出荷に直結する構造だった

アクションアイテム: 午前・午後で担当を交代する2人体制の導入、検査エリアの照明を500ルクスに改善、画像検査AIの導入検討(3か月以内にPoC)

導入半年後、不良品の顧客到達件数は 月3件 → 月0.2件 に減少した。

例3:スタートアップが顧客データ漏洩のヒヤリハットを振り返る

インシデント概要: 社員15名のHRテックスタートアップで、テスト環境に本番の顧客データがコピーされていることを新入社員が発見。実害はなかったが、個人情報保護法違反のリスクがあった。

ポストモーテムで判明したこと

  • テスト環境構築手順書に「本番DBのダンプを使ってよい」と記載されていた(3年前に書かれたまま放置)
  • 手順書のレビュー体制がなく、誰も内容を更新していなかった
  • 新入社員は「おかしい」と思ったが、2日間言い出せなかった → 入社オンボーディングで「問題を報告する文化」の説明がなかった

アクションアイテム

  1. テスト環境は匿名化済みデータのみ使用するルールを策定し、CIで自動チェック(2週間)
  2. 全手順書を半年に1回レビューするカレンダーリマインダー設定(1週間)
  3. オンボーディング資料に「問題を見つけたらすぐ報告」のセクション追加(1週間)

発見した新入社員を全社ミーティングで称え、「見つけてくれたおかげで大事に至らなかった」とCTOが直接伝えた。

やりがちな失敗パターン
#

  1. 「ブレイムレス」と言いながら犯人探しをする — 「ブレイムレスですが、なぜAさんはテストしなかったのですか?」は結局責めている。主語を「人」から「プロセス」に変える習慣が必要
  2. アクションアイテムが「気をつける」で終わる — 人間の注意力に頼る対策は再発を防げない。仕組み・自動化・チェックリストなど、構造的な改善に落とす
  3. ドキュメントを書いて終わりにする — 書いた文書が読まれず、同じ障害が再発する。全社公開し、類似チームに「うちでも起きうる」と自分事化してもらう
  4. ポストモーテムを開催しない — 「軽微だったからいいか」と省略すると、小さな問題が積もって大障害になる。影響度に関わらず実施する文化が大事

まとめ
#

ブレイムレス・ポストモーテムは「人を罰する文化」から「仕組みを改善する文化」への転換。個人の責任を問わないことで正直な情報が集まり、根本的な改善につながる。「止めた人を称える」アンドンコードと同じ思想で、失敗を組織の学びに変えていく仕組みだ。

ブレイムレス・ポストモーテムのフレームワークテンプレート

このフレームワークを実際に使ってみましょう。