ひとことで言うと#
2つ以上のデータの関係性を**「一緒に動いているだけ(相関)」なのか「原因と結果(因果)」なのか**を正しく区別し、データに騙されずに意思決定するための考え方。「数字が語る物語」を鵜呑みにしないリテラシーが身につく。
押さえておきたい用語#
- 相関関係(Correlation)
- 2つの変数が一緒に増減する傾向のこと。正の相関・負の相関・無相関がある。相関があっても因果があるとは限らない。
- 因果関係(Causation)
- 一方が原因で他方が結果という原因→結果の関係を指す。因果を証明するにはランダム化実験(A/Bテスト)が最も確実。
- 交絡因子(Confounding Variable)
- 2つの変数の両方に影響を与える第三の変数のこと。交絡因子を見落とすと、見かけの相関を因果と誤認してしまう。
- 疑似相関(Spurious Correlation)
- 実際には因果関係がないのに、第三の変数の影響や偶然によりあたかも関係があるように見える相関を指す。
- 回帰の意味(Regression to the Mean)
- 極端な値の後には平均に近い値に戻りやすい現象である。「施策の効果」と「平均への回帰」を混同しやすい。
回帰分析の考え方の全体像#
こんな悩みに効く#
- 「広告費を増やしたら売上も増えた」が、本当に広告のおかげか自信がない
- データ分析の結果をプレゼンしても「それって本当に因果関係あるの?」と突っ込まれる
- グラフで相関が見えたとき、すぐに施策に飛びついてしまう
基本の使い方#
まず2つの変数が一緒に動いているかを確認する。
- 「広告費」と「売上」の散布図を描く
- 右肩上がりなら正の相関、右肩下がりなら負の相関、バラバラなら無相関
- 相関係数(-1〜+1)で強さを数値化できる
ポイント: 相関があることは「関係がありそう」というスタート地点にすぎない。ここで結論を出してはいけない。
**「両方に影響を与えている別の要因はないか?」**を必ず考える。
有名な例:
- 「アイスクリームの売上」と「溺死事故の件数」は正の相関がある
- しかしアイスクリームが溺死の原因ではない
- **気温(第三の変数)**が両方に影響しているだけ
ビジネスでも同じ:
- 「研修を受けた社員は業績が良い」→ そもそも意欲の高い社員が研修に参加しているだけでは?
- 「オーガニック流入が増えたら売上が増えた」→ 季節要因(年末商戦)が両方を押し上げているのでは?
相関があっても、どちらが原因でどちらが結果かは自明ではない。
- 「従業員満足度が高い会社は業績が良い」
- 解釈A: 満足度が高い → やる気が出る → 業績が上がる
- 解釈B: 業績が良い → 待遇が良い → 満足度が高い
- 解釈C: 両方が同時に起きている(優れた経営が両方を生む)
因果の方向を特定するには:
- 時間の順序: 原因は結果より先に起きているか?
- 介入実験: 一方を変えたら他方が変わるか?(A/Bテスト)
- 理論的な根拠: メカニズムが説明できるか?
相関・因果の区別を踏まえて、適切なアクションを選ぶ。
- 因果が確認できた場合: 原因側を操作する施策を打つ
- 例: A/Bテストで「商品レビュー表示が購入率を上げる」と確認 → レビュー表示を全ページに展開
- 相関しかない場合: 予測には使えるが、施策の根拠にはしない
- 例: 「雨の日は売上が下がる」→ 雨を止めることはできないが、雨の日の在庫調整には使える
- 交絡が疑われる場合: 追加データを集めるか、A/Bテストで検証する
具体例#
状況: 月間ユーザー20万人のECサイトで「お気に入り登録機能」をリリースした。
データ: お気に入りを使ったユーザーの購入率は35%、使っていないユーザーは8%。
安易な結論: 「お気に入り機能が購入率を4倍以上にした!全ユーザーに使わせよう!」
回帰分析の考え方で検証:
- 交絡因子を疑う: お気に入りを使うユーザーは、そもそも購買意欲が高い人では?
- データを確認: お気に入りユーザーの平均サイト滞在時間は15分、非利用者は2分。明らかに「もともと熱心なユーザー」がお気に入りを使っている
- 因果の方向: 「お気に入り→購入」ではなく「購買意欲が高い→お気に入りも使うし購入もする」の可能性が高い
- 正しい検証方法: 新規ユーザーをランダムに2群に分け、片方にだけお気に入り機能を目立つ位置に表示するA/Bテストを実施
A/Bテストの結果: お気に入り機能の強調表示で購入率が8%→11%に改善。効果はあるが「4倍」ではなく「1.4倍」が正しい数字だった。
正確な効果量は**+3ポイント**。「4倍」ではなく「1.4倍」。相関データだけで判断していたら、過剰な投資をしていた。
状況: 従業員500名のIT企業。リーダーシップ研修(受講費用1人あたり30万円)の効果を検証したい。
データ: 研修受講者(80名)の翌年の評価スコア平均は4.2、未受講者(420名)は3.5。差は0.7ポイント。
安易な結論: 「研修の効果で0.7ポイント改善!全員受講させよう!」
回帰分析の考え方で検証:
- 交絡因子: 研修は希望者制。そもそも意欲の高い社員が受講しているのでは?
- データ確認: 受講者の研修前の評価スコア平均は3.9、未受講者は3.4。受講前から差があった
- 交絡因子の影響を除去: 研修前スコアが同水準(3.8〜4.0)の社員同士で比較すると、受講者4.2 vs 未受講者4.0。差は0.2ポイントに縮小
では研修は本当に効いたのか。純粋な効果は0.7ポイントではなく0.2ポイント。1人30万円の投資に対して再検討が必要な数字だった。「意欲の高い人が研修も受けて評価も高かった」が主因だった。
状況: 個人経営のカフェ(月商180万円)。SNSフォロワー数と月間売上に強い正の相関(r=0.85)がある。「SNSを頑張れば売上が上がる」と確信し、SNS運用代行(月15万円)の契約を検討中。
回帰分析の考え方で検証:
- 相関の確認: 確かにフォロワー数と売上の相関は強い(r=0.85)
- 交絡因子の候補: 季節要因(暖かい月は外出が増え、SNS投稿も売上も増える)、新メニュー投入時期(新メニューがSNSでも売上でも反応を生む)
- 時間順序の確認: フォロワー増加と売上増加のタイムラグを確認すると、同月に同時発生。「フォロワーが増えたから売上が上がった」とは言えない
- 追加分析: 季節変動を除去した残差同士の相関を計算すると、r=0.35に低下
相関0.85の大部分は季節変動による見かけの相関だった。月15万円のSNS運用代行は過大投資のリスクがある。まずは月2万円のツールで3ヶ月測定し、本当の効果を確認してから判断する方針に切り替えた。
やりがちな失敗パターン#
- 「相関=因果」と短絡する — これが最も多いミス。プレゼンで「AとBには相関がある。だからAを増やせばBも増える」と主張してしまう。「相関がある」と「原因である」はまったく別の話だということを常に意識する
- 交絡因子を一つも考えない — データに飛びつく前に**最低3つは「他に影響している要因はないか?」**と自問する習慣をつける
- 統計的に有意でないのに語る — サンプルサイズが小さいデータで「傾向が見えた」と主張するのは危険。**「このデータ量で語っていいのか?」**と常に問う
- 平均への回帰を施策の効果と勘違いする — 成績最下位のチームに介入したら翌月改善した→施策の効果?いや、極端な値は自然に平均に戻る。「何もしなくても改善していた可能性」を常に考える
まとめ#
回帰分析の考え方は、データの相関関係と因果関係を正しく区別し、誤った意思決定を避けるための思考フレームワーク。「一緒に動いている」ことと「原因と結果である」ことは別物。交絡因子を疑い、因果の方向を確認し、必要ならA/Bテストで検証する。データに基づく意思決定の質を上げたいなら、まずこの「疑う力」を身につけよう。