ひとことで言うと#
2つの変数をX軸とY軸にとり、各データを点(ドット)としてプロットすることで、「2つの項目に関係があるか」「どんなパターンがあるか」「外れ値はないか」を目で見て判断できる分析手法。数式を使わずに直感的に関係性を把握できる。
押さえておきたい用語#
- 正の相関(Positive Correlation)
- X軸の値が増えるとY軸の値も増える傾向のこと。散布図では右肩上がりのパターンになる。
- 負の相関(Negative Correlation)
- X軸の値が増えるとY軸の値が減る傾向を指す。散布図では右肩下がりのパターンになる。
- 外れ値(Outlier)
- 全体の傾向から大きく外れたデータポイントのこと。入力ミスか特殊要因かを確認する必要があり、深掘りの宝庫でもある。
- 近似直線(トレンドライン)
- 散布図のデータ点の傾向を1本の直線で近似したものである。Excelの「近似曲線の追加」で簡単に描ける。
散布図分析の全体像#
こんな悩みに効く#
- 「広告費を増やせば売上は上がるのか?」の答えがほしい
- 2つの数値の関係をデータで確認したいが、統計の知識が不安
- 数字の表だけでは関係性が読み取れない
基本の使い方#
関係性を調べたい2つの数値データを決める。
- 原因と考える変数 → X軸(横軸)に配置
- 結果と考える変数 → Y軸(縦軸)に配置
- 例: X軸=月間広告費、Y軸=月間売上高
データは最低20〜30点あると、パターンが見えやすくなる。
各データポイントを座標上に点として打つ。
- ExcelやGoogleスプレッドシートの「散布図」グラフを選択すれば自動で作成可能
- 点が多い場合は、透明度を下げて重なりがわかるようにする
- 必要に応じて**近似直線(トレンドライン)**を追加する
点の散らばり方から関係性を判断する。
- 右肩上がり: 正の相関 → Xが増えるとYも増える傾向
- 右肩下がり: 負の相関 → Xが増えるとYは減る傾向
- バラバラ: 無相関 → 2つの変数に関係性はなさそう
- 曲線的: 非線形の関係 → 一定のところまでは増えるが頭打ちになるなど
- 外れ値: 全体の傾向から大きく外れた点 → 特殊要因の調査が必要
散布図で見えたパターンをもとに仮説を立て、追加分析を行う。
- 正の相関がある → 本当に因果関係か?第三の変数が影響していないか?
- 外れ値がある → その月だけ特別なキャンペーンがあった?
- 層別(色分け)して深掘り: 地域別、季節別に色を変えるとさらに見えるものがある
散布図は「気づきの入口」であり、ここから相関分析や回帰分析に進む。
具体例#
状況: 従業員200名のBtoB企業。営業担当者30名の月間データを散布図でプロット(X軸=訪問件数、Y軸=受注件数)。
パターン(全体): 訪問件数が多いほど受注件数も多い傾向(正の相関、r=0.68)。
発見1: 訪問件数50件以上でも受注が2件以下の担当者が3名いた(外れ値)。調べると、全員が新規開拓のみで既存顧客へのフォローをしていなかった。
発見2: 訪問件数20件程度でも受注が8件以上の担当者が2名いた。この2名は事前のリサーチに時間をかけ、ターゲットを絞って訪問していた。
アクション:
- 全員に「量だけでなく質を意識した訪問」を推奨
- 高効率な2名の訪問準備プロセスをチームに共有
チーム全体の受注率は**15%→22%**に改善。散布図の「外れ値」が最も価値のある発見だった。
状況: コンビニチェーン50店舗。アイスクリームカテゴリの日次売上と最高気温の関係を散布図で分析(180日分のデータ)。
パターン: 25℃までは気温と売上がほぼ比例(正の相関)。25〜32℃では売上が急増。しかし33℃以上になると売上が頭打ち(非線形パターン)。
発見: 35℃超の猛暑日は、人が外出を控えるためコンビニ来店数自体が減少。「暑いほど売れる」は33℃までの話だった。
アクション:
- 25〜32℃の日: アイス在庫を通常の1.5倍に増やす
- 33℃以上の日: 在庫を1.2倍に抑える(過剰在庫を防ぐ)
- 天気予報データと連動した自動発注ルールを設定
廃棄ロスは年間**12%**削減。もし線形の相関だけ見ていたら、猛暑日に過剰発注していたはずだ。非線形パターンの発見がこの差を生んだ。
状況: 生徒120名の学習塾。保護者から「もっと授業時間を増やしてほしい」という要望が多い。本当に時間を増やせば成績は上がるのか、データで検証する。
散布図の結果(X軸=週あたり塾での学習時間、Y軸=偏差値の変化):
- 週3〜8時間: 正の相関あり。時間が増えるほど偏差値が上がる
- 週8時間以上: ばらつきが大きくなり、相関が弱くなる
- 週12時間以上の生徒6名のうち、3名は偏差値が下がっていた
層別分析(色分け): 週12時間以上で偏差値が下がった3名の共通点 → 睡眠時間が5時間以下。疲労で授業中の集中力が低下していた。
「週8時間まで最適、それ以上は睡眠とのバランスが重要」という知見を保護者説明会で共有。生徒の平均偏差値は半年で3.2ポイント向上した。散布図1枚が「やみくもに時間を増やせばいい」という思い込みを覆した。
やりがちな失敗パターン#
- 相関を因果と混同する — 散布図で相関が見えても、それが因果関係とは限らない。「アイスの売上と溺死事故に相関がある」のは気温という共通原因があるから。第三の変数を常に疑う
- 外れ値を無視する — 全体の傾向だけ見て外れ値をスルーすると、重要な発見を見逃す。外れ値こそ深掘りの宝庫
- データが少なすぎる状態で判断する — 5〜10点の散布図で「相関がある」と結論づけるのは危険。最低20点、できれば50点以上で判断すべき
- 非線形パターンを見逃す — 近似直線だけ見ていると、曲線的な関係を見落とす。まずは点の散らばりを肉眼で確認し、直線以外のパターンにも注意を払う
まとめ#
散布図分析は、2つの変数の関係を視覚的に素早く把握するための基本ツール。統計の知識がなくても「関係がありそうかどうか」を直感的に判断でき、外れ値の発見にも強い。まずは気になる2つの数値データを選び、ExcelやGoogleスプレッドシートでプロットしてみよう。