ひとことで言うと#
実験計画法とは、「この施策には本当に効果があるのか?」を科学的に検証するための実験の設計方法。ランダム化、対照群の設定、交絡因子の制御といった原則に基づき、「相関」ではなく「因果」を明らかにする。A/Bテストの上位概念であり、より複雑な実験(多変量テスト、交互作用の検証)にも対応する。
押さえておきたい用語#
- ランダム化(Randomization)
- 実験対象を無作為に各群に割り当てること。交絡因子の影響を均一化し、因果推論の土台を作る実験計画の根幹原則。
- 対照群(Control Group)
- 施策を適用しない比較基準となるグループのこと。「何もしなかった場合」との差を測ることで、施策の純粋な効果がわかる。
- 交絡因子(Confounding Variable)
- 独立変数と従属変数の両方に影響を与える第三の変数のこと。制御しないと因果関係を正しく推定できない。
- 検出力(Statistical Power)
- 本当に効果があるときに、それを統計的に検出できる確率のこと。通常80%以上を目標にサンプルサイズを設計する。
- p-hacking(ピーハッキング)
- データを見てから分析方法を変えたり、都合の良い結果だけを報告したりして偽の有意差を得る行為のこと。事前の分析計画で防ぐ。
実験計画法の全体像#
こんな悩みに効く#
- 施策の効果が出たのか、他の要因で数字が動いたのか区別できない
- 複数の施策を同時にテストしたいが、やり方がわからない
- 「相関はあるが因果はわからない」から抜け出したい
基本の使い方#
何を検証したいかを、検証可能な形で定義する。
- 研究仮説: 「Xを変えるとYが改善する」の形で記述
- 例: 「商品ページに動画を追加すると、購入率が向上する」
- 帰無仮説: 「XとYに関係はない」(統計的に棄却することを目指す)
- 主要評価指標: 何をもって「効果あり」と判断するかの指標
ポイント: 仮説が曖昧だと実験結果の解釈も曖昧になる。「XをAからBに変えると、Yが○%以上改善する」まで具体化する。
交絡因子を排除し、因果関係を明確にできる実験構造を選ぶ。
- 完全ランダム化デザイン: 対象をランダムに群に割り当てる(最も基本)
- ブロック化デザイン: 既知の交絡因子(デバイス種別、地域など)でグループ化してから群に割り当てる
- 要因配置デザイン: 複数の要因を同時に検証(例: ボタンの色×サイズの2要因)
- 対照群の設定: 何も変えないコントロールグループを必ず用意する
ポイント: 実験デザインの選択は結果の信頼性を大きく左右する。まずは完全ランダム化デザインをマスターし、必要に応じて複雑なデザインに進む。
統計的に信頼できる結果を得るために必要なサンプル数を事前に計算する。
- 検出したい効果量: どれくらいの差を検出したいか(小さい差ほど大きなサンプルが必要)
- 有意水準(α): 通常5%。偽陽性のリスクをどこまで許容するか
- 検出力(1-β): 通常80%。本当に効果があるときに検出できる確率
- 実験期間: 曜日・季節性の影響を考慮し、最低1〜2週間
ポイント: サンプルサイズ計算をせずに「なんとなく1週間」で実験すると、検出力不足で効果を見逃すか、偶然の差を効果と誤認するリスクがある。
事前に決めた分析計画に従って、結果を統計的に評価する。
- p値の確認: 帰無仮説を棄却できるか(通常p < 0.05)
- 効果量の算出: 差がどれくらいの大きさか(統計的有意でも実務的に小さければ意味がない)
- 信頼区間: 効果の推定範囲を示す
- セグメント分析: 全体では有意でなくても、特定のセグメントで効果がある場合がある
ポイント: 分析計画は実験前に決めておく。データを見てから分析方法を変えると、p-hackingのリスクがある。
具体例#
仮説: メルマガの開封率は「件名のタイプ」と「送信時間帯」の両方に影響される。最適な組み合わせを特定したい。
実験設計(2×3の要因配置デザイン):
- 要因1 - 件名タイプ: A「お得情報型」/ B「課題解決型」
- 要因2 - 送信時間: 朝8時 / 昼12時 / 夜20時
- 計6群: A×朝、A×昼、A×夜、B×朝、B×昼、B×夜
- 各群5,000通、合計30,000通をランダムに割り当て
結果:
| 朝8時 | 昼12時 | 夜20時 | |
|---|---|---|---|
| A: お得情報型 | 18% | 22% | 15% |
| B: 課題解決型 | 25% | 20% | 23% |
分析:
- 件名タイプの主効果: B(課題解決型)がA(お得情報型)より平均4ポイント高い(p = 0.01)
- 送信時間の主効果: 有意差なし(p = 0.15)
- 交互作用: 有意(p = 0.03)。お得情報型は昼が最適、課題解決型は朝が最適
- 最適な組み合わせ: B(課題解決型)×朝8時 = 開封率25%
1要因ずつ別々にテストしていたら交互作用を見逃していた。2要因同時に検証したことで、最適な組み合わせを効率的に特定でき、メルマガ経由のCVが月間18%増加した。
状況: 全国80店舗の飲食チェーン。新メニュー導入の効果を検証したい。全店一斉導入では「効果があったのか、他の要因(季節変動など)か」の区別がつかない。
実験設計(ブロック化ランダム比較試験):
- ブロック化: 店舗を売上規模(大・中・小)×地域(都市・郊外)で6ブロックに分類
- ランダム割り当て: 各ブロック内で半数を実験群(新メニュー)、半数を対照群(旧メニュー)に
- 実験期間: 4週間
- 主要指標: 客単価
結果:
| グループ | 客単価(平均) | 差 |
|---|---|---|
| 実験群(40店舗) | 1,280円 | +85円 |
| 対照群(40店舗) | 1,195円 | — |
- 客単価の差: +85円(p = 0.002、95%信頼区間: +42円〜+128円)
- ブロック別: 都市部大型店での効果が最大(+120円)、郊外小型店では+35円
全店一斉導入ではなく対照群を設けたことで、季節要因を排除した純粋な効果(+85円)を特定。年間売上への換算で約3.2億円のインパクトがあると試算でき、経営会議での全店展開の意思決定根拠になった。
状況: 生徒数800名の学習塾。新しいオンライン動画教材の導入を検討しているが、月額200万円のコスト。投資判断のために、成績向上効果を科学的に検証したい。
実験設計(完全ランダム化デザイン):
- 中学2年生200名をランダムに2群に割り当て
- 実験群(100名): 通常授業+オンライン動画教材
- 対照群(100名): 通常授業のみ
- 期間: 2ヶ月間
- 主要指標: 数学の定期テストの点数変化
結果:
| グループ | テスト点数の変化 | 標準偏差 |
|---|---|---|
| 実験群 | +12.3点 | 8.5 |
| 対照群 | +4.1点 | 9.2 |
- 差: 8.2点(p = 0.001、95%信頼区間: 5.8〜10.6点)
- 効果量(Cohen’s d): 0.93(大きな効果)
- セグメント分析: 下位25%の生徒で効果が最大(+15.2点)
対照群を設けたことで、「もともとの成績上昇分(+4.1点)」と「動画教材の純粋な効果(+8.2点)」を分離できた。特に成績下位層への効果が大きく、投資回収が見込めると判断し全学年への展開を決定した。
やりがちな失敗パターン#
- 対照群を設定しない — 施策を打ったグループだけ見て「効果があった」と判断すると、外部要因の影響と区別できない。必ず「何も変えないグループ」を用意し、その差を見る
- 途中で実験条件を変更する — 思うような結果が出ないからと途中で条件を変えると、結果の信頼性が崩れる。実験計画は事前に確定し、最後まで変えない
- 多重比較の問題を無視する — 複数の指標や複数のセグメントで検定を繰り返すと、偶然の差を「有意」と誤認する確率が上がる。Bonferroni補正などで多重比較を適切に調整する
- サンプルサイズ不足で「効果なし」と結論する — 検出力が不十分な実験で有意差が出なくても、「効果がない」とは言えない。事前にサンプルサイズ計算を行い、十分な検出力を確保する
まとめ#
実験計画法は、施策の因果効果を科学的に検証するためのフレームワーク。仮説の定義、実験構造の設計、サンプルサイズの計算、統計的な結果分析の4ステップで実践する。A/Bテストだけでなく、複数の要因を同時に検証する多変量テストにも応用できる。まずは次の施策検証で「対照群」と「事前のサンプルサイズ計算」を取り入れることから始めよう。