相関分析

英語名 Correlation Analysis
読み方 コリレーション アナリシス
難易度
所要時間 1〜3時間
提唱者 カール・ピアソン(ピアソンの相関係数、1896年)
目次

ひとことで言うと
#

2つの変数がどれくらい連動しているかを-1〜+1の数値(相関係数)で表す分析手法。「広告費を増やすと売上は上がるのか?」「気温と売上に関係はあるのか?」を客観的に判断でき、因果関係を探る最初の手がかりになる。

押さえておきたい用語
#

押さえておきたい用語
相関係数(Correlation Coefficient)
2つの変数がどれくらい連動しているかを-1〜+1の数値で表した指標。+1で完全な正の相関、-1で完全な負の相関、0で相関なし。
疑似相関(Spurious Correlation)
直接の因果関係がないのに、第三の変数の影響で2つの変数が見かけ上相関している状態のこと。アイスの売上と溺死者数が連動するのは気温が共通原因。
散布図(Scatter Plot)
2つの変数をX軸とY軸にプロットした図のこと。相関係数を計算する前に視覚的に関係性を確認するために使う。
外れ値(Outlier)
他のデータから極端に離れた値のこと。たった1つの外れ値が相関係数を大きく歪めるため、散布図で確認が必須。

相関分析の全体像
#

相関分析:変数の関係性を数値で把握し、因果の手がかりを得る
変数ペアを選ぶ仮説に基づいて2つの数値変数を選定散布図を描く外れ値・非線形パターンを視覚的に確認する相関係数を計算r = -1〜+1 の数値で関係の強さと方向を定量化|r|≧0.7 → 強い相関相関 ≠ 因果第三変数の確認時間的前後関係の検証疑似相関に注意アクションへ因果仮説を立てA/Bテスト等で検証するCORREL関数(Excel)numpy.corrcoef(Python)
相関分析の進め方フロー
1
変数ペアを選定
仮説に基づき2変数を選ぶ
2
散布図で確認
外れ値と非線形を目視
3
相関係数を算出
r値で強さと方向を定量化
因果を検証
A/Bテスト等で因果を確認

こんな悩みに効く
#

  • 売上に最も影響を与えている要因がわからない
  • 「広告を増やせば売上が上がるはず」と言われるが、本当かデータで確かめたい
  • 変数が多すぎて、どの組み合わせを深掘りすればいいか見当がつかない

基本の使い方
#

ステップ1: 分析したい変数のペアを選ぶ

関係性を調べたい2つの変数を選ぶ。

  • 例: 広告費 × 売上、気温 × アイスの販売数、残業時間 × 離職率
  • 数値データ(量的データ)であることが前提
  • カテゴリデータ(男女、地域など)の場合は別の手法を使う

ポイント: 最初は「ビジネスで因果関係がありそうだ」と仮説を持っているペアから始める。

ステップ2: 散布図を描いて視覚的に確認する

相関係数を計算する前に、まず散布図を描く

  • X軸に一方の変数、Y軸にもう一方の変数をプロット
  • 右上がり: 正の相関(一方が増えるともう一方も増える)
  • 右下がり: 負の相関(一方が増えるともう一方は減る)
  • バラバラ: 相関なし

ポイント: 散布図なしで相関係数だけ見ると、非線形の関係や外れ値の影響を見落とす。アンスコムの四重奏は有名な例。

ステップ3: 相関係数を計算する

**ピアソンの相関係数(r)**を計算する。

  • r = +1: 完全な正の相関
  • r = 0: 相関なし
  • r = -1: 完全な負の相関

目安: | |r| の範囲 | 相関の強さ | |—|—| | 0.7〜1.0 | 強い相関 | | 0.4〜0.7 | 中程度の相関 | | 0.2〜0.4 | 弱い相関 | | 0.0〜0.2 | ほぼ相関なし |

計算: Excelなら CORREL 関数、Pythonなら numpy.corrcoef で一発。

ステップ4: 相関と因果を区別してアクションにつなげる

相関分析の最大の注意点: 相関 ≠ 因果

  • 「アイスの売上」と「溺死者数」は相関するが、因果関係はない(共通の原因=気温)
  • 「広告費」と「売上」が相関していても、広告費を増やせば売上が上がるとは限らない

因果の判断に必要な追加ステップ:

  1. 第三変数の確認: 両方に影響する別の要因がないか
  2. 時間的前後関係: 原因が結果より先に発生しているか
  3. 実験(A/Bテスト): 介入実験で因果を検証する

ポイント: 相関分析は因果の「仮説を発見する」ためのツール。因果の「証明」にはさらなる分析が必要。

具体例
#

例1:ECサイトが売上ドライバーを特定し広告費を最適化する

状況: ECサイトの月次売上に影響する要因を特定し、来期の戦略に活かしたい。過去24ヶ月のデータで5変数を分析。

分析した変数ペアと相関係数:

変数売上との相関係数(r)
広告費+0.82(強い正の相関)
サイト訪問者数+0.91(非常に強い正の相関)
平均気温+0.15(ほぼ相関なし)
商品点数+0.45(中程度の正の相関)
カスタマーサポート対応時間-0.38(弱い負の相関)

発見と解釈:

  1. サイト訪問者数が売上と最も強く相関 → 集客が最重要ドライバー
  2. 広告費も強い相関 → ただし、広告費→訪問者→売上という経路の可能性が高い
  3. カスタマーサポート対応時間がマイナス相関 → 対応品質の低下が売上に悪影響?

アクション: 広告費→訪問者数→売上の因果関係を検証するため、翌月に広告費を30%増やすテストを実施。結果、訪問者が25%増加し売上も20%増加。因果関係がある可能性が高いと判断し、広告予算を年間1,200万円増額する意思決定につなげた。

例2:人事部が離職率の要因を相関分析で探る

状況: 従業員500名の企業で年間離職率が18%。原因を特定するため、過去3年分のデータで各部署の離職率と5つの変数の相関を分析。

相関分析の結果:

変数離職率との相関係数(r)
残業時間(月平均)+0.74(強い正の相関)
上司との1on1頻度-0.68(中〜強の負の相関)
年収水準-0.35(弱い負の相関)
通勤時間+0.22(弱い正の相関)
チーム規模+0.08(ほぼ相関なし)

解釈: 残業時間と1on1頻度が離職率と強く相関。ただし、残業が多い部署は1on1をする余裕がないという交絡の可能性あり。

アクション: 残業45時間超の部署(3部署)で1on1を週1回義務化するパイロット施策を実施。**6ヶ月後、対象部署の離職率が22%→12%に改善。**1on1による「不満の早期検知」が離職防止に因果効果を持つことを確認。

例3:小売チェーンが天候と売上の関係を定量化して仕入れを最適化する

状況: コンビニ30店舗の日次売上データ(過去1年分、約10,950件)を使い、天候要因と商品カテゴリ別売上の関係を分析。

相関分析の結果(主要な発見):

天候変数 × 商品相関係数(r)
最高気温 × アイス売上+0.85
最高気温 × ホット飲料売上-0.78
降水量 × 傘売上+0.72
降水確率(翌日予報) × 傘売上+0.31

発見: 降水確率よりも実際の降水量との相関が強い。つまり「雨が降りそうだから買う」より「雨が降ったから買う」パターンが支配的。

アクション: 天気予報ではなく、当日早朝のリアルタイム気象データを基に自動発注量を調整するシステムを導入。結果、アイス・ホット飲料の廃棄率が15%→6%に改善、年間で約2,400万円の廃棄ロス削減を実現。

やりがちな失敗パターン
#

  1. 「相関がある=原因と結果」と短絡する — 相関はあくまで「連動している」という事実。**見かけの相関(疑似相関)**を因果と誤解して施策を打つと、効果が出ずにリソースを浪費する
  2. 外れ値を無視して相関係数を鵜呑みにする — たった1つの外れ値が相関係数を大きく歪める。必ず散布図を描いて外れ値の有無を確認する
  3. 線形の関係だけを見る — ピアソンの相関係数は線形の関係しか捉えない。U字型やS字型の関係があっても r ≈ 0 になる。散布図で非線形パターンがないか確認する
  4. 相関係数の大きさだけで変数を切り捨てる — r = 0.3程度の弱い相関でも、ビジネスインパクトが大きい変数なら深掘りの価値がある。実務上の重要性と統計的な相関の両方を考慮する

まとめ
#

相関分析は、2つの変数の関係性の強さと方向を数値で把握する分析手法。売上の要因特定や変数間の関連性の探索に役立つが、「相関 ≠ 因果」を常に意識することが重要。まずは自社の売上と各種KPIの散布図を描いて、相関係数を計算するところから始めよう。