#SRE
12件のフレームワーク
データ信頼性エンジニアリング / Data Reliability Engineering
SREの考え方をデータ基盤に適用し信頼性を担保
データパイプラインの安定運用
データ品質の継続的監視
障害対応の標準化
キャパシティプランニング / Capacity Planning
サービス成長予測とインフラリソースの事前確保で安定稼働を実現する手法
インフラコストの最適化
トラフィック急増への備え
サービス成長に伴うリソース計画
トイルバジェット / Toil Budget
手作業の上限を設定し自動化投資の判断基準に
手作業コストの可視化
自動化投資の優先順位決定
エンジニアリング時間の確保
サービスレベル目標(SLO) / Service Level Objectives
SLI/SLO/SLAの設計と運用でサービス品質担保
サービス品質の目標設定
エラーバジェットの運用
信頼性とベロシティのバランス
インシデント管理フレームワーク / Incident Management
障害管理フレームワークとは、インシデント発生から収束・再発防止までの対応を型化する仕組み。MTTRの短縮と組織的な学習につなげる検知・対応・振り返りの実践プロセスを解説。
障害対応プロセスの標準化
MTTR短縮
ポストモーテム運用
インフラ信頼性設計 / Infrastructure Reliability
冗長性・フェイルオーバー・自動修復を組み込んだ基盤
高可用性アーキテクチャの設計
障害耐性の向上
SLA達成
エラーバジェット / Error Budget
SLOから逆算した許容障害量でリリース速度と信頼性のバランス
リリース速度と信頼性のバランス
SLO運用
障害対応の優先順位付け
ゴールデンシグナル / Golden Signals
レイテンシ・トラフィック・エラー率・飽和度の4指標監視
サービス監視の設計
アラート設計
障害検知の迅速化
オンコール管理 / On Call Management
障害対応当番制度の設計・ローテーション・燃え尽き防止
オンコール制度の設計
アラート疲れの解消
エンジニアの燃え尽き防止
SRE原則 / Site Reliability Engineering Principles
ソフトウェアエンジニアリングの手法で運用問題を解決し、信頼性をシステマティックに管理するGoogleの運用哲学
運用の体系化
信頼性目標の定量管理
コンテナオーケストレーション / Container Orchestration
コンテナ化されたアプリケーションのデプロイ、スケーリング、運用を自動化する管理手法
コンテナの本番運用
マイクロサービスの管理
モニタリングとオブザーバビリティ / Monitoring & Observability
メトリクス・ログ・トレースの3本柱でシステムの状態を可視化し、障害の予防と迅速な対応を実現する
システム障害の早期検知
パフォーマンスのボトルネック特定
SLO/SLAの管理