ひとことで言うと#
「相関があること」と「因果関係があること」を区別し、観察データから「Xが原因でYが変わった」と言えるかを厳密に判定するための手法の体系。A/Bテストが使えない場面でも、適切な手法を選べば因果に迫れる。
押さえておきたい用語#
- 交絡因子(Confounder)
- 原因Xと結果Yの両方に影響する第三の変数。交絡因子を統制しないと、XとYの相関を因果と誤認してしまう。
- 反事実(Counterfactual)
- 「もし施策を行わなかったら、結果はどうだったか」という実際には観測できない仮想的な状態のこと。因果効果は現実と反事実の差として定義する。
- DAG(Directed Acyclic Graph)
- 変数間の因果構造を矢印で表した有向非巡回グラフ。どの変数をコントロールすべきかを視覚的に判断するために使う。
- 傾向スコア(Propensity Score)
- 各個体が処置を受ける確率の推定値。この値で処置群と対照群の背景条件を揃え、疑似的なランダム化を実現する手法を指す。
因果推論フレームワークの全体像#
こんな悩みに効く#
- 「広告を見た人の購入率が高い」が、それは広告の効果なのか元々買う気だった人が広告を見ただけなのか区別できない
- A/Bテストができない状況で施策の因果効果を経営に説明したい
- 相関分析だけでは「だからどうする」の判断が弱い
基本の使い方#
「XはYに因果効果があるか」を具体的に定義し、関連する変数の因果関係をDAGで描く。
- X(処置): 広告出稿、機能リリース、価格変更など
- Y(アウトカム): 売上、CVR、継続率など
- 交絡因子Z: XとYの両方に影響する変数(年齢、過去の購買履歴、地域など)
- DAGを描くと「何をコントロールすべきか」「何をコントロールしてはいけないか」が明確になる
| 状況 | 推奨手法 | 強度 |
|---|---|---|
| ランダム割り当てが可能 | A/Bテスト(RCT) | 最強 |
| 施策の前後データ+対照群がある | 差の差分析(DID) | 高 |
| 施策の適用に閾値がある | 回帰不連続デザイン(RDD) | 高 |
| 観察データのみ | 傾向スコアマッチング | 中 |
| 外部的な要因で割り当てが決まる | 操作変数法(IV) | 中〜高 |
どの手法にも前提条件(仮定)がある。仮定が満たされないと推定結果は信頼できない。
選んだ手法で因果効果を推定し、信頼区間を添えて報告する。同時に「この分析が成り立つための仮定」と「その仮定が破れるリスク」も明示する。
- 「DIDで推定した結果、施策の因果効果は+12ptと推定される。ただし平行トレンド仮定は施策前6ヶ月のデータで検証済み」
- 「傾向スコアマッチングでATTを推定。ただし未観測の交絡因子がある場合、推定値にバイアスが残る可能性がある」
具体例#
年商50億円のEC企業。リターゲティング広告の効果を「広告を見た人の購入率 8.5% vs 見なかった人の購入率 3.2%」で報告していたが、「元々買う気の人が広告に触れやすいだけでは」という指摘を受けた。
DAGを描くと、「過去の閲覧行動」が広告表示(X)と購入(Y)の両方に影響する交絡因子だった。傾向スコアマッチングで過去閲覧行動・会員ランク・流入元を揃えて比較した結果、リターゲティング広告の因果効果は +2.1pt(8.5%ではなく3.2% + 2.1% = 5.3%が広告なしの場合の購入率)。
素朴な比較の +5.3pt のうち 3.2pt は交絡だった。この分析に基づき、リターゲティング広告の費用対効果を再計算し、予算配分を見直した。
従業員2,000名の製造業。リーダーシップ研修(3日間)の受講者と未受講者で、半年後の360度評価スコアを比較したい。ただし受講は上司推薦のため、もともと評価が高い人が受講しやすい構造がある。
傾向スコアを「役職、勤続年数、前年の評価スコア、部門」から算出し、マッチングで比較。
| 受講者(マッチング後) | 未受講者(マッチング後) | |
|---|---|---|
| 360度評価の変化 | +0.8pt | +0.3pt |
ATT = +0.5pt(95%CI: +0.2 〜 +0.8pt)。素朴な比較では+1.2ptだったが、交絡を補正すると +0.5pt と約半分。研修は効果があるが、期待していたほど大きくない。費用対効果を再評価し、対象者の選定基準を見直した。
ある県が最低賃金を 5% 引き上げた。隣接する賃金据え置き県を対照群として、DIDで雇用への影響を推定した。
過去3年間の雇用者数トレンドが両県で並行していることを確認。最低賃金引上げ後1年間のデータでDIDを実施。
DID推定の結果、パートタイム雇用者数への影響は -1.2%(95%CI: -2.8% 〜 +0.4%)で統計的に有意ではなかった。一方、正社員の離職率は -0.8pt で有意に低下しており、賃金引上げが正社員の定着に寄与している可能性を示唆。
「雇用が減る」という懸念に対してデータで反証し、次年度の賃金政策の議論に貢献した。ただし、対照群の県でも間接的に賃金が上昇した可能性(波及効果)があるため、効果を過小評価している可能性も報告書に記載した。
やりがちな失敗パターン#
- 相関をそのまま因果として報告する — 「広告を見た人は購入率が高い」は因果ではなく相関。交絡因子を考慮しないまま施策の「効果」と言ってしまうのが最も多い間違い
- 手法の仮定を検証しない — DIDの平行トレンド仮定、傾向スコアのバランス確認など、手法の前提が満たされているかの検証を省略すると分析の信頼性がゼロになる
- DAGを描かずに変数を闇雲にコントロールする — 中間変数をコントロールすると因果効果を歪める(「衝突変数バイアス」)。DAGで因果構造を整理してからコントロール変数を決める
- 「因果推論をしたからバイアスはない」と断言する — どの手法にも限界がある。未観測の交絡因子の可能性を常に併記し、分析の限界を正直に報告する
まとめ#
因果推論フレームワークは「相関と因果を区別する」ための思考法と手法の体系。A/Bテストがゴールドスタンダードだが、使えない場面ではDID・傾向スコアマッチング・操作変数法などを状況に応じて選ぶ。どの手法を使うにしても、DAGで因果構造を整理し、手法の仮定を検証し、限界を報告するプロセスを省略しないことが、信頼できる因果推論の条件になる。