ひとことで言うと#
施策や介入の効果を、「やった場合」と「やらなかった場合」の差として正しく測定するための分析フレームワーク。単純な前後比較ではなく、因果推論の手法(A/Bテスト、差分の差分法、回帰不連続デザインなど)を使い、バイアスを排除して施策の真の効果を特定する。
押さえておきたい用語#
- 因果効果(Causal Effect)
- ある施策を実施したことで本当に変化した分のこと。相関ではなく、介入がなかった場合との差として定義される。
- 反事実(Counterfactual)
- 「施策を実施しなかったら、どうなっていたか」という仮想の結果。直接観察できないため、推定する必要がある。
- 選択バイアス(Selection Bias)
- 施策の対象者が無作為でないために生じる推定のゆがみ。たとえば「意欲の高い人だけが参加する」と、効果が過大に見える。
- 差分の差分法(Difference-in-Differences / DID)
- 施策前後の変化量を、施策群と対照群で差を取った差で比較する手法。トレンドの影響を除去できる。
- 回帰不連続デザイン(Regression Discontinuity Design / RDD)
- ある閾値で施策の適用が決まるとき、閾値付近の結果を比較して局所的な因果効果を推定する手法。
インパクト分析の全体像#
こんな悩みに効く#
- 施策の効果を「前月比」で報告しているが、本当にその施策のおかげなのか自信がない
- 季節要因やトレンドの影響を除外して、純粋な効果を測りたい
- A/Bテストができない状況で、施策の効果を推定する方法が欲しい
- 経営陣に「この施策に投資する価値がある」と因果関係で説明したい
基本の使い方#
「何が原因で、何が変わるか」を明確に定義する。
- 施策(原因変数): 具体的に何を行うか(例: メール配信、UI変更、価格改定)
- 成果指標(結果変数): 何が変化するか(例: CVR、LTV、離脱率)
- 仮説を「施策Xにより、指標Yが○%改善する」の形で書く
- ガードレール指標(悪影響がないか確認する指標)も設定する
データの状況と制約に応じて、最もバイアスの少ない手法を選ぶ。
- RCT(ランダム化比較試験): 無作為に割り当て可能ならベスト。A/Bテストはこの形態
- DID(差分の差分法): 施策群と対照群があり、施策前後のデータが取れるとき
- RDD(回帰不連続デザイン): 閾値で施策適用が決まるとき(例: スコア上位にのみ介入)
- 傾向スコアマッチング: 無作為割り当てができないが、属性データがあるとき
選んだ手法で「施策がなかった場合の結果」を推定し、実測値との差を計算する。
- 効果の大きさ(ポイント推定)と信頼区間をセットで報告する
- 統計的有意性だけでなく、実務的な意味がある大きさかも判断する
- 複数の手法で検証(ロバストネスチェック)するとさらに信頼性が上がる
分析結果をアクションに変換する。
- 効果がある → スケール・横展開を検討
- 効果がない → 施策の修正・撤退を判断
- 効果が不明確 → サンプルサイズを増やすか、測定期間を延長
- ROI(投資対効果)を算出し、リソース配分の判断材料にする
具体例#
月間アクティブユーザー50万人のECサイトが、AIレコメンドエンジンを導入した。単純な前後比較では「導入月に売上が**12%**増加」だったが、年末商戦の時期と重なっており、本当にレコメンドの効果かどうか不明だった。
DID(差分の差分法)で分析:
レコメンドをPC版にのみ先行導入し、モバイル版は旧仕様のまま4週間据え置いた。
| 指標 | PC版(施策群) | モバイル版(対照群) |
|---|---|---|
| 導入前4週間の客単価 | ¥4,200 | ¥3,800 |
| 導入後4週間の客単価 | ¥4,950 | ¥4,300 |
| 変化量 | +¥750 | +¥500 |
DID推定値: ¥750 − ¥500 = ¥250(レコメンドの純粋な効果)
年末商戦による底上げ(¥500)を除いた真の効果は客単価**+¥250**(約6%相当)だった。全体に展開した場合の年間売上インパクトを約1.5億円と試算し、レコメンドエンジンの年間ライセンス費2,000万円に対して十分なROIがあると判断。全デバイスへの展開を決定した。
BtoB SaaS企業が、新規顧客向けに専任CSによる90日間オンボーディングを試験的に導入した。ただし、CSのリソースが限られており無作為割り当てができず、契約金額の大きい上位50社に優先的に提供していた。
単純比較だと「オンボーディングあり群の継続率92% vs なし群78%」だったが、上位50社はもともと継続率が高い傾向があるため、選択バイアスが大きい。
傾向スコアマッチングで分析:
契約金額・業種・従業員規模・導入時期の4変数で傾向スコアを算出し、オンボーディングあり群50社に対して属性の近いなし群50社をマッチングした。
マッチング後の比較:
- オンボーディングあり: 90日後継続率92%、機能利用率68%
- マッチングしたなし群: 90日後継続率83%、機能利用率52%
因果効果の推定: 継続率**+9ポイント**、機能利用率**+16ポイント**。単純比較の**+14ポイントより小さいが、それでも有意な効果があった。1社あたりの年間LTV差額は約120万円で、CS人件費を差し引いてもROI 280%。全新規顧客への展開のため、CSチームを3名→6名**に増員する投資判断が通った。
地方自治体が、特定健診の受診率を上げるために40歳以上の住民にダイレクトメール(DM)を送付した。対象は約3万人。DMの効果を測りたいが、「40歳以上全員」に送っているため対照群がない。
RDD(回帰不連続デザイン)を活用:
DMの送付基準が「年度開始時点で40歳以上」という明確な閾値だったため、40歳の誕生日前後で受診率を比較した。
- 39歳11か月〜39歳(DM未送付): 受診率18.2%
- 40歳〜40歳1か月(DM送付): 受診率24.7%
- 閾値での不連続な変化: +6.5ポイント
RDD推定による因果効果は受診率**+6.5ポイント**(95%信頼区間: +4.1〜+8.9)。DM1通あたりのコスト82円に対し、受診1件あたりの追加コストは約1,260円。早期発見による医療費削減効果は1件あたり約15,000円と推計され、費用対効果が十分であることを確認。翌年度は対象年齢を35歳以上に拡大する予算が承認された。
やりがちな失敗パターン#
- 前後比較だけで効果を主張する — 施策以外の要因(季節性、トレンド、他施策の影響)を考慮しないと、効果を過大・過小評価してしまう。必ず対照群を設定する
- 統計的有意性だけを見る — p値が0.05以下でも、効果の大きさが実務的に意味のない水準なら投資判断は変わる。効果量と信頼区間をセットで報告する
- 分析手法の前提条件を確認しない — DIDには「平行トレンド仮定」、RDDには「閾値の操作がない」など、各手法に前提がある。前提が崩れると推定が歪む
- 結果が期待と違うと分析をやり直す — 「効果がなかった」も重要な知見。データを加工して期待通りの結果を出そうとするのはp-hackingであり、信頼を損なう
まとめ#
インパクト分析は、施策の効果を「やった場合」と「やらなかった場合(反事実)」の差として正しく測定するフレームワークである。単純な前後比較ではバイアスを除去できないため、RCT・DID・RDD・傾向スコアマッチングなどの因果推論手法を状況に応じて使い分ける。大事なのは**「この施策のおかげで本当に変わったのか」**という問いに誠実に向き合うこと。正確な効果測定があってこそ、正しい投資判断ができる。