#運用
9件のフレームワーク
ITILサービスマネジメント / ITIL Service Management
ITサービスのベストプラクティス体系
ITサービスの品質向上
インシデント対応の標準化
変更管理のリスク低減
エラーバジェット / Error Budget
SLOから逆算した許容障害量でリリース速度と信頼性のバランス
リリース速度と信頼性のバランス
SLO運用
障害対応の優先順位付け
オンコール管理 / On Call Management
障害対応当番制度の設計・ローテーション・燃え尽き防止
オンコール制度の設計
アラート疲れの解消
エンジニアの燃え尽き防止
デプロイメント・ロールバック戦略 / Deployment Rollback
障害発生時に安全かつ迅速に前バージョンへ戻す手法
リリース障害の復旧
デプロイ安全性の向上
MTTR短縮
デプロイメント戦略比較 / Deployment Strategy
ローリング・カナリア・ブルーグリーン等の選択指針
デプロイ方式の選定
ダウンタイム削減
リリースリスク低減
SRE原則 / Site Reliability Engineering Principles
ソフトウェアエンジニアリングの手法で運用問題を解決し、信頼性をシステマティックに管理するGoogleの運用哲学
運用の体系化
信頼性目標の定量管理
データベースマイグレーション / Database Migration
データベースのスキーマ変更をバージョン管理し、安全かつ再現可能にデプロイする手法
スキーマ変更の安全なデプロイ
環境間のDB同期
コンテナオーケストレーション / Container Orchestration
コンテナ化されたアプリケーションのデプロイ、スケーリング、運用を自動化する管理手法
コンテナの本番運用
マイクロサービスの管理
モニタリングとオブザーバビリティ / Monitoring & Observability
メトリクス・ログ・トレースの3本柱でシステムの状態を可視化し、障害の予防と迅速な対応を実現する
システム障害の早期検知
パフォーマンスのボトルネック特定
SLO/SLAの管理