ひとことで言うと#
「この施策は本当に効果があったのか?」を偶然ではなく統計的な根拠で判断するための設計・分析・解釈の体系。サンプルサイズの決め方からp値の読み方まで、実験を正しく回して正しく判断する一連のスキルを身につけられる。
押さえておきたい用語#
- 帰無仮説(Null Hypothesis / ヌル ハイポセシス)
- 「施策に効果はない」「AとBに差はない」という否定したい仮説のこと。実験ではこの帰無仮説を棄却できるかどうかで判定する。
- p値(p-value / ピーバリュー)
- 帰無仮説が正しいと仮定したとき、観測されたデータ以上に極端な結果が偶然で起こる確率を指す。一般に0.05未満で「統計的に有意」と判断するが、これは絶対的な閾値ではない。
- 検出力(Statistical Power / スタティスティカル パワー)
- 本当に効果があるとき、それを正しく検出できる確率である。一般に80%以上を目標とする。検出力が低いと、効果があるのに「差なし」と結論づけてしまう。
- 第一種の過誤・第二種の過誤
- 第一種の過誤は「効果がないのにある」と判断する誤り(偽陽性)、第二種の過誤は「効果があるのにない」と判断する誤り(偽陰性)。この2つのリスクのバランスが実験設計の核になる。
実験統計学の全体像#
こんな悩みに効く#
- A/Bテストの結果が「有意」かどうか、自信を持って判断できない
- サンプルサイズの決め方がわからず、テスト期間をなんとなくで決めている
- p値が0.05を少し超えたとき、どう解釈すればいいか迷う
基本の使い方#
実験の前に「何を、どのくらい変えたいのか」を具体化する。
- 帰無仮説(H₀): 「新しいCTAボタンと現行ボタンでクリック率に差はない」
- 対立仮説(H₁): 「新しいCTAボタンの方がクリック率が高い」
- 主要指標(Primary Metric): クリック率(CTR)
- 最小検出差(MDE): 現行3.2% → 目標3.5%以上(相対的に**+10%**)
MDEを小さく設定するほど多くのサンプルが必要になる。「どのくらいの改善があれば施策を実行する価値があるか?」というビジネス判断と紐づけて決める。
有意水準・検出力・MDEの3つからサンプルサイズを算出する。
設定例:
- 有意水準 α = 0.05(偽陽性リスク5%)
- 検出力 1-β = 0.80(真の差を80%の確率で検出)
- 現行CTR = 3.2%、MDE = +10%(相対)
この条件で必要なサンプルサイズは片群約48,000人。日次トラフィックが5,000人/日なら、実験期間は最低20日間。
1週間の周期性を考慮し、実験期間は必ず7の倍数日にする(例: 21日間)。
ユーザーをコントロール群(A)と処理群(B)にランダムに振り分ける。
注意点:
- ユーザー単位で割り当てる(セッション単位だと同じ人がAとBの両方を見る可能性がある)
- 割り当て比率は通常50:50だが、リスクが高い変更は90:10で始めることもある
- 途中でテストを覗き見して判断しない(ピーキング問題)。事前に決めたサンプルサイズに達してから判定する
実験中に別の大きな施策(セール、PR露出など)が入ると結果が汚れるので、実験カレンダーで管理する。
データが集まったら、以下の3つの指標で判定する。
- p値: 0.05未満なら統計的に有意。ただしp値が0.04でも0.06でも、実質的な差はほとんどない。閾値を絶対視しない
- 信頼区間: 効果の範囲を見る。「CTRの差は+0.2%〜+0.8%(95%信頼区間)」のように、効果のばらつきを把握する
- 効果量: 統計的に有意でも、効果が小さければ実装コストに見合わない。「+0.3%の改善は開発工数に見合うか?」をビジネス判断する
p値だけでなく、信頼区間と効果量の3点セットで意思決定する。
具体例#
DAU 80万人のフリマアプリ。出品ボタンをフッター中央からヘッダー右上に移動する案が出たが、UIチームとプロダクトチームで意見が割れた。
実験設計: 主要指標は「出品完了率」。現行2.1%に対しMDEを+15%(相対)に設定。有意水準0.05、検出力0.80で必要サンプルサイズは片群35,000人。日次DAUから14日間で十分と判断し、実験を開始した。
結果: 処理群の出品完了率2.38% vs コントロール群2.12%。差は**+0.26ポイント**、p値 = 0.008、95%信頼区間は**+0.07%〜+0.45%。統計的に有意であり、信頼区間の下限もプラスだったため全ユーザーに展開。月間出品数は約8,000件**増加した。
データが議論に決着をつけた典型例。「どちらの意見が正しいか」ではなく「ユーザーがどう行動したか」で決めた。
月間新規登録3,000社のBtoB SaaS。無料トライアルから有料転換率が12%と低く、オンボーディングのステップ数を7 → 4に減らす改修を検討していた。
MDE**+20%(相対)、有意水準0.05**、検出力0.80で算出した必要サンプルサイズは片群1,200社。月間登録数から実験期間は4週間に設定した。
4週間後の結果: 処理群の有料転換率14.8% vs コントロール群11.9%。p値 = 0.023。ただし、副次指標として追跡した「有料転換後30日以内の解約率」が処理群で18% vs コントロール群**9%**と悪化していた。
ステップを減らしたことで初期設定を飛ばしたユーザーが多く、利用開始後に躓いていた。主要指標の改善だけ見て喜ぶと、下流で問題が起きる。副次指標の同時監視がなければ危うく逆効果の改修を全展開するところだった。
ATM利用者月間45万人の地方銀行。高齢者から「画面が見づらい」という声を受け、フォントサイズを14pt → 18ptに拡大する案が出た。ただし文字が大きくなると1画面あたりの情報量が減り、操作ステップが増える懸念があった。
主要指標を「1取引あたりの平均操作時間」、MDEを**±5秒**(現行平均42秒)に設定。ATM120台のうち30台を処理群として新フォントを適用し、8週間実験を実施。
結果: 処理群の平均操作時間39秒 vs コントロール群42秒。p値 = 0.003。さらに60歳以上に限定すると45秒 → 37秒と8秒の短縮。見やすくなったことで迷う時間が減り、ステップ増加の影響を上回った。
全台への展開後、窓口での「ATMの使い方がわからない」という問い合わせが月340件 → 210件に減少。38%削減という数字は、フォントサイズの変更だけで達成された。
やりがちな失敗パターン#
- サンプルが集まる前に結果を覗いて判断する(ピーキング) — 実験途中でp値が0.05を下回ったからといって早期に打ち切ると、偽陽性率が5%から30%以上に膨れ上がる。事前に決めたサンプルサイズに達するまで待つか、逐次検定(Sequential Testing)を使う
- 統計的有意 = 実務的に意味がある、と思い込む — 大量のサンプルがあれば、CTRが**0.01%**改善しただけでも有意になる。「p値が小さい」ことと「ビジネスインパクトが大きい」ことは別問題。必ず効果量と信頼区間を見る
- 複数指標を同時に検定して「当たった」ものだけ報告する — 20個の指標を同時に検定すれば、偶然1つは有意になる(多重検定問題)。主要指標は事前に1つに絞り、副次指標にはBonferroni補正などの多重検定補正を適用する
まとめ#
実験統計学は、「仮説設定 → 実験設計 → データ収集 → 統計的判定」の4ステップで施策効果を科学的に検証するフレームワーク。p値だけでなく信頼区間と効果量を組み合わせて判断することで、偽陽性に踊らされない意思決定ができる。最も重要なのは実験前の設計で、MDEとサンプルサイズを事前に決めることで「なんとなくテストして、なんとなく判断する」状態から脱却できる。