ひとことで言うと#
2つの変数がどれくらい連動しているかを-1〜+1の数値(相関係数)で表す分析手法。「広告費を増やすと売上は上がるのか?」「気温と売上に関係はあるのか?」を客観的に判断でき、因果関係を探る最初の手がかりになる。
押さえておきたい用語#
- 相関係数(Correlation Coefficient)
- 2つの変数がどれくらい連動しているかを-1〜+1の数値で表した指標。+1で完全な正の相関、-1で完全な負の相関、0で相関なし。
- 疑似相関(Spurious Correlation)
- 直接の因果関係がないのに、第三の変数の影響で2つの変数が見かけ上相関している状態のこと。アイスの売上と溺死者数が連動するのは気温が共通原因。
- 散布図(Scatter Plot)
- 2つの変数をX軸とY軸にプロットした図のこと。相関係数を計算する前に視覚的に関係性を確認するために使う。
- 外れ値(Outlier)
- 他のデータから極端に離れた値のこと。たった1つの外れ値が相関係数を大きく歪めるため、散布図で確認が必須。
相関分析の全体像#
こんな悩みに効く#
- 売上に最も影響を与えている要因がわからない
- 「広告を増やせば売上が上がるはず」と言われるが、本当かデータで確かめたい
- 変数が多すぎて、どの組み合わせを深掘りすればいいか見当がつかない
基本の使い方#
関係性を調べたい2つの変数を選ぶ。
- 例: 広告費 × 売上、気温 × アイスの販売数、残業時間 × 離職率
- 数値データ(量的データ)であることが前提
- カテゴリデータ(男女、地域など)の場合は別の手法を使う
ポイント: 最初は「ビジネスで因果関係がありそうだ」と仮説を持っているペアから始める。
相関係数を計算する前に、まず散布図を描く。
- X軸に一方の変数、Y軸にもう一方の変数をプロット
- 右上がり: 正の相関(一方が増えるともう一方も増える)
- 右下がり: 負の相関(一方が増えるともう一方は減る)
- バラバラ: 相関なし
ポイント: 散布図なしで相関係数だけ見ると、非線形の関係や外れ値の影響を見落とす。アンスコムの四重奏は有名な例。
**ピアソンの相関係数(r)**を計算する。
- r = +1: 完全な正の相関
- r = 0: 相関なし
- r = -1: 完全な負の相関
目安: | |r| の範囲 | 相関の強さ | |—|—| | 0.7〜1.0 | 強い相関 | | 0.4〜0.7 | 中程度の相関 | | 0.2〜0.4 | 弱い相関 | | 0.0〜0.2 | ほぼ相関なし |
計算: Excelなら CORREL 関数、Pythonなら numpy.corrcoef で一発。
相関分析の最大の注意点: 相関 ≠ 因果。
- 「アイスの売上」と「溺死者数」は相関するが、因果関係はない(共通の原因=気温)
- 「広告費」と「売上」が相関していても、広告費を増やせば売上が上がるとは限らない
因果の判断に必要な追加ステップ:
- 第三変数の確認: 両方に影響する別の要因がないか
- 時間的前後関係: 原因が結果より先に発生しているか
- 実験(A/Bテスト): 介入実験で因果を検証する
ポイント: 相関分析は因果の「仮説を発見する」ためのツール。因果の「証明」にはさらなる分析が必要。
具体例#
状況: ECサイトの月次売上に影響する要因を特定し、来期の戦略に活かしたい。過去24ヶ月のデータで5変数を分析。
分析した変数ペアと相関係数:
| 変数 | 売上との相関係数(r) |
|---|---|
| 広告費 | +0.82(強い正の相関) |
| サイト訪問者数 | +0.91(非常に強い正の相関) |
| 平均気温 | +0.15(ほぼ相関なし) |
| 商品点数 | +0.45(中程度の正の相関) |
| カスタマーサポート対応時間 | -0.38(弱い負の相関) |
発見と解釈:
- サイト訪問者数が売上と最も強く相関 → 集客が最重要ドライバー
- 広告費も強い相関 → ただし、広告費→訪問者→売上という経路の可能性が高い
- カスタマーサポート対応時間がマイナス相関 → 対応品質の低下が売上に悪影響?
アクション: 広告費→訪問者数→売上の因果関係を検証するため、翌月に広告費を30%増やすテストを実施。結果、訪問者が25%増加し売上も20%増加。因果関係がある可能性が高いと判断し、広告予算を年間1,200万円増額する意思決定につなげた。
状況: 従業員500名の企業で年間離職率が18%。原因を特定するため、過去3年分のデータで各部署の離職率と5つの変数の相関を分析。
相関分析の結果:
| 変数 | 離職率との相関係数(r) |
|---|---|
| 残業時間(月平均) | +0.74(強い正の相関) |
| 上司との1on1頻度 | -0.68(中〜強の負の相関) |
| 年収水準 | -0.35(弱い負の相関) |
| 通勤時間 | +0.22(弱い正の相関) |
| チーム規模 | +0.08(ほぼ相関なし) |
解釈: 残業時間と1on1頻度が離職率と強く相関。ただし、残業が多い部署は1on1をする余裕がないという交絡の可能性あり。
アクション: 残業45時間超の部署(3部署)で1on1を週1回義務化するパイロット施策を実施。**6ヶ月後、対象部署の離職率が22%→12%に改善。**1on1による「不満の早期検知」が離職防止に因果効果を持つことを確認。
状況: コンビニ30店舗の日次売上データ(過去1年分、約10,950件)を使い、天候要因と商品カテゴリ別売上の関係を分析。
相関分析の結果(主要な発見):
| 天候変数 × 商品 | 相関係数(r) |
|---|---|
| 最高気温 × アイス売上 | +0.85 |
| 最高気温 × ホット飲料売上 | -0.78 |
| 降水量 × 傘売上 | +0.72 |
| 降水確率(翌日予報) × 傘売上 | +0.31 |
発見: 降水確率よりも実際の降水量との相関が強い。つまり「雨が降りそうだから買う」より「雨が降ったから買う」パターンが支配的。
アクション: 天気予報ではなく、当日早朝のリアルタイム気象データを基に自動発注量を調整するシステムを導入。結果、アイス・ホット飲料の廃棄率が15%→6%に改善、年間で約2,400万円の廃棄ロス削減を実現。
やりがちな失敗パターン#
- 「相関がある=原因と結果」と短絡する — 相関はあくまで「連動している」という事実。**見かけの相関(疑似相関)**を因果と誤解して施策を打つと、効果が出ずにリソースを浪費する
- 外れ値を無視して相関係数を鵜呑みにする — たった1つの外れ値が相関係数を大きく歪める。必ず散布図を描いて外れ値の有無を確認する
- 線形の関係だけを見る — ピアソンの相関係数は線形の関係しか捉えない。U字型やS字型の関係があっても r ≈ 0 になる。散布図で非線形パターンがないか確認する
- 相関係数の大きさだけで変数を切り捨てる — r = 0.3程度の弱い相関でも、ビジネスインパクトが大きい変数なら深掘りの価値がある。実務上の重要性と統計的な相関の両方を考慮する
まとめ#
相関分析は、2つの変数の関係性の強さと方向を数値で把握する分析手法。売上の要因特定や変数間の関連性の探索に役立つが、「相関 ≠ 因果」を常に意識することが重要。まずは自社の売上と各種KPIの散布図を描いて、相関係数を計算するところから始めよう。