A/Bテストを組織に広げたいときはどうすればいい？

「実験基盤設計」フレームワークが役立ちます。A/Bテストを組織的にスケールさせるプラットフォーム

実験基盤を構築したいときはどうすればいい？

「実験基盤設計」フレームワークが役立ちます。A/Bテストを組織的にスケールさせるプラットフォーム

データドリブンな意思決定をしたいときはどうすればいい？

「実験基盤設計」フレームワークが役立ちます。A/Bテストを組織的にスケールさせるプラットフォーム

実験基盤設計

ひとことで言うと
#

A/Bテストを個人の職人芸ではなく、組織の標準的な意思決定手段にスケールさせるためのプラットフォーム設計フレームワーク。実験の設計→割り当て→測定→分析→意思決定の全工程を仕組み化し、誰でも安全に実験を回せる状態を作る。

押さえておきたい用語
#

押さえておきたい用語

実験基盤（Experimentation Platform）: A/Bテストの設計・実行・分析を一貫して管理するシステム。トラフィック割り当て、指標計算、統計検定、レポートを自動化する。
割り当てエンジン（Assignment Engine）: ユーザーを施策群・対照群にランダムかつ均等に振り分ける仕組み。一貫した体験を保証するため、ユーザーIDベースでハッシュ割り当てを行う。
ガードレール指標（Guardrail Metric）: 実験が悪影響を与えていないか監視するための指標。主要指標（OEC）が改善しても、ガードレールが悪化していれば出荷しない。
OEC（Overall Evaluation Criterion）: 実験の成否を最終的に判断する主要評価指標。1つの実験につき1つに絞ることで、判断の明確さを保つ。
統計的検出力（Statistical Power）: 実際に効果があるとき、それを正しく検出できる確率。十分なサンプルサイズがないと検出力が低く、効果を見逃す。

実験基盤設計の全体像
#

実験基盤：5つのレイヤーで構成されるプラットフォーム

実験基盤の運用フロー

仮説とOECを設定

何を検証し、何で判断するかを定義

→

実験を設計・実行

サンプルサイズ計算→割り当て→計測開始

→

自動分析とレビュー

統計検定→ガードレール確認→議論

→

★

意思決定と学びの蓄積

出荷可否を判断し知見をナレッジ化

こんな悩みに効く
#

A/Bテストをやりたいが、毎回エンジニアに依頼して数週間かかる
テストの設計が属人的で、サンプルサイズも期間も「勘」で決めている
同時に複数のテストを走らせると、結果が干渉して信頼できない
実験結果が蓄積されず、同じ失敗を繰り返してしまう

基本の使い方
#

実験設計を標準化する

すべての実験に共通のフォーマットを適用する。

仮説テンプレート: 「[施策]により、[対象ユーザー]の[OEC]が[期待する変化量]改善する」
OECは1つに絞り、補助指標とガードレール指標を3〜5個添える
サンプルサイズ計算器を用意し、MDE（最小検出効果量）と検出力80%以上を基準にする
実験期間は最低1〜2週間（曜日効果を含めるため）

割り当てエンジンを構築する

ユーザーの振り分けを自動化・一元管理する。

ユーザーIDのハッシュ値でバケットに振り分ける（リクエストごとにブレない）
トラフィック配分をUIから変更できるようにする（段階的ロールアウト対応）
同時実行する実験間の干渉を防ぐ仕組みを入れる（レイヤー分離またはフルファクトリアル設計）

指標パイプラインと自動分析を整備する

データ収集から統計検定までをパイプラインで自動化する。

イベントログを実験IDで紐づけて集計する
指標計算をSQLテンプレート化し、新指標の追加を容易にする
自動で統計検定を実行し、信頼区間・p値・効果量をダッシュボードに表示
ガードレール指標が閾値を超えたら自動アラートを飛ばす

意思決定と学びの蓄積を仕組み化する

実験結果を組織のナレッジとして活用する。

実験完了後にShip/No-Shipを判断するレビュー会を定例化する
結果と学びを検索可能な形で蓄積する（実験リポジトリ）
「この仮説は過去に検証済み」を確認できる状態にする
四半期ごとに実験のメタ分析を行い、勝ちパターンを抽出する

具体例
#

例1：EC企業が年間200本のA/Bテストを回す基盤を構築する

月間ユーザー300万人のEC企業。A/Bテストは年間15本しか実施できておらず、施策の効果検証はほとんどが「前月比」だった。プロダクトチーム30名が「もっとテストしたい」と感じていたが、毎回エンジニアリソースが必要で、ボトルネックになっていた。

基盤構築のステップ:

割り当てエンジン: ユーザーIDのMD5ハッシュで100バケットに振り分け。Feature Flagサービス（LaunchDarkly）と統合し、PMが管理画面からトラフィック配分を変更可能にした
指標パイプライン: BigQuery + dbtで主要指標25個を日次自動計算。新指標の追加はSQLテンプレートに1行追加するだけ
自動分析: 実験開始から自動でt検定を実行し、Lookerダッシュボードに信頼区間をリアルタイム表示。ガードレール（エラー率・ページ読み込み時間）の異常はSlackに即時通知
ナレッジ管理: Notionに実験リポジトリを構築。仮説・結果・学びを構造化して蓄積

1年後: 年間実験数が15本→210本に増加。実験1本あたりのリードタイムは3週間→3日に短縮。A/Bテスト経由で検証された施策のうち**38%が統計的に有意な改善をもたらし、検証なしで出荷していた時代と比べてCVRが年間12%**向上した。

例2：SaaS企業がプライシングの実験文化を根付かせる

BtoB SaaS企業（ARR 8億円、顧客数1,200社）が料金プランの改定を検討していた。過去の値上げは「経営判断」で一律に実施し、チャーンが急増して撤回した経験がある。

実験基盤を使ったプライシングテスト:

仮説: スタータープランの価格を月額¥9,800→¥12,800に変更しても、新規契約CVRの低下は5%以内に収まる
OEC: 新規契約CVR
ガードレール: 無料トライアル開始率、サポート問い合わせ率、契約後30日以内の解約率
設計: 新規訪問者の**20%**にのみ新価格を表示。既存顧客には影響なし。検出力80%を確保するため、6週間実施

結果:

新価格群のCVR: 3.8%（旧価格群: 4.1%）→ 差は**-0.3ポイント**、95%信頼区間は**[-1.1, +0.5]**で統計的に有意差なし
ガードレール: すべて基準値内
新価格でのARPU（顧客あたり収益）は**+30.6%**

CVR低下が最悪でも1.1ポイントに対し、ARPUが30%上がるため純収益は大幅にプラス。全新規顧客に新価格を適用し、年間ARRが約1.2億円増加した。「勘の値上げ」から「実験に基づく値上げ」に変わったことで、経営陣の意思決定への信頼も向上した。

例3：メディア企業が記事レコメンドの最適化を多腕バンディットで行う

月間PV5,000万のニュースメディア。トップページの「おすすめ記事」枠のCTRが2.1%で停滞していた。編集チームが手動で選んでいたが、記事のライフサイクルが短く（平均4時間で閲覧ピークが過ぎる）、従来のA/Bテストでは間に合わなかった。

多腕バンディットを実験基盤に組み込む:

従来のA/Bテスト: 50:50固定割り当て→結果が出るまで1週間待つ→記事は鮮度切れ
多腕バンディット: Thompson Samplingで1時間ごとに配分を更新。勝ちパターンに自動で傾斜

基盤の設計:

記事ごとにCTRのベイズ推定値をリアルタイム更新
上位3記事をレコメンド枠に表示、配分は推定CTRに比例
「探索率」を最低**10%**確保し、新記事にも露出機会を与える
時間帯・デバイス別のセグメントを考慮した文脈付きバンディット

3か月後: おすすめ記事枠のCTRが2.1%→3.4%に向上（+62%）。編集チームの記事選定工数が週10時間→2時間に削減。さらに、バンディットが選ぶ記事の傾向を分析することで「どんな見出し・テーマがクリックされるか」のナレッジが蓄積され、編集方針の改善にもつながった。

やりがちな失敗パターン
#

サンプルサイズを考えずに実験を止める — 「良さそうだから早めに出荷」は偽陽性のリスクが高い。事前に決めた期間とサンプルサイズを必ず守る（早期停止ルールを使うなら統計的に適切な手法を適用する）
OECを実験途中で変える — 期待した指標が動かないからと別の指標を探すのはHARKing（結果を見てから仮説を作ること）。OECは実験開始前に確定させる
ガードレールを設定しない — CTRが上がったが離脱率も上がった、という「見かけの改善」を見逃す。主要指標だけでなく副作用も必ず監視する
実験結果を蓄積しない — 「効果なし」の実験も重要な知見。結果を記録しないと、同じ仮説を何度も検証することになり、組織として学習が進まない

まとめ
#

実験基盤設計は、A/Bテストを個人の技能から組織の仕組みへとスケールさせるためのフレームワークである。設計・割り当て・データ収集・分析・意思決定の5レイヤーを一貫して自動化し、誰でも安全に実験を回せる状態を作ることが目標。最も重要なのは**「実験の数を増やすこと」ではなく「正しい実験から正しく学ぶこと」**。基盤はそのための仕組みであり、実験文化は基盤の上に育つ。

実験基盤設計

ひとことで言うと#

押さえておきたい用語#

実験基盤設計の全体像#

こんな悩みに効く#

基本の使い方#

具体例#

やりがちな失敗パターン#

まとめ#

ひとことで言うと
#

押さえておきたい用語
#

実験基盤設計の全体像
#

こんな悩みに効く
#

基本の使い方
#

具体例
#

やりがちな失敗パターン
#

まとめ
#