#SRE
11件のフレームワーク
データ信頼性エンジニアリング
SREの考え方をデータ基盤に適用し信頼性を担保
データパイプラインの安定運用
データ品質の継続的監視
障害対応の標準化
キャパシティプランニング
サービス成長予測とインフラリソースの事前確保で安定稼働を実現する手法
インフラコストの最適化
トラフィック急増への備え
サービス成長に伴うリソース計画
トイルバジェット
手作業の上限を設定し自動化投資の判断基準に
手作業コストの可視化
自動化投資の優先順位決定
エンジニアリング時間の確保
サービスレベル目標(SLO)
SLI/SLO/SLAの設計と運用でサービス品質担保
サービス品質の目標設定
エラーバジェットの運用
信頼性とベロシティのバランス
インシデント管理フレームワーク
障害対応の型を定め平均復旧時間を短縮
障害対応プロセスの標準化
MTTR短縮
ポストモーテム運用
インフラ信頼性設計
冗長性・フェイルオーバー・自動修復を組み込んだ基盤
高可用性アーキテクチャの設計
障害耐性の向上
SLA達成
エラーバジェット
SLOから逆算した許容障害量でリリース速度と信頼性のバランス
リリース速度と信頼性のバランス
SLO運用
障害対応の優先順位付け
ゴールデンシグナル
レイテンシ・トラフィック・エラー率・飽和度の4指標監視
サービス監視の設計
アラート設計
障害検知の迅速化
オンコール管理
障害対応当番制度の設計・ローテーション・燃え尽き防止
オンコール制度の設計
アラート疲れの解消
エンジニアの燃え尽き防止
SRE原則
ソフトウェアエンジニアリングの手法で運用問題を解決し、信頼性をシステマティックに管理するGoogleの運用哲学
運用の体系化
信頼性目標の定量管理
モニタリングとオブザーバビリティ
メトリクス・ログ・トレースの3本柱でシステムの状態を可視化し、障害の予防と迅速な対応を実現する
システム障害の早期検知
パフォーマンスのボトルネック特定
SLO/SLAの管理