散布図分析

英語名 Scatter Plot Analysis
読み方 スキャッター プロット アナリシス
難易度
所要時間 30分〜1時間
提唱者 ジョン・ハーシェル(1833年)
目次

ひとことで言うと
#

2つの変数をX軸とY軸にとり、各データを点(ドット)としてプロットすることで、「2つの項目に関係があるか」「どんなパターンがあるか」「外れ値はないか」を目で見て判断できる分析手法。数式を使わずに直感的に関係性を把握できる。

押さえておきたい用語
#

押さえておきたい用語
正の相関(Positive Correlation)
X軸の値が増えるとY軸の値も増える傾向のこと。散布図では右肩上がりのパターンになる。
負の相関(Negative Correlation)
X軸の値が増えるとY軸の値が減る傾向を指す。散布図では右肩下がりのパターンになる。
外れ値(Outlier)
全体の傾向から大きく外れたデータポイントのこと。入力ミスか特殊要因かを確認する必要があり、深掘りの宝庫でもある。
近似直線(トレンドライン)
散布図のデータ点の傾向を1本の直線で近似したものである。Excelの「近似曲線の追加」で簡単に描ける。

散布図分析の全体像
#

散布図で読み取れる4つのパターン
正の相関Xが増えるとYも増える負の相関Xが増えるとYは減る無相関関係性なし(バラバラ)外れ値あり外れ値!全体の傾向から外れた点を発見関係性を「目で見て」発見
散布図分析の進め方フロー
1
変数選択
関係を調べたい2つの数値データを決める
2
プロット
X軸とY軸に各データを点で配置
3
パターン読取
相関・外れ値・非線形パターンを確認
仮説の深掘り
層別や回帰分析で仮説を検証

こんな悩みに効く
#

  • 「広告費を増やせば売上は上がるのか?」の答えがほしい
  • 2つの数値の関係をデータで確認したいが、統計の知識が不安
  • 数字の表だけでは関係性が読み取れない

基本の使い方
#

ステップ1: 分析する2つの変数を選ぶ

関係性を調べたい2つの数値データを決める。

  • 原因と考える変数 → X軸(横軸)に配置
  • 結果と考える変数 → Y軸(縦軸)に配置
  • 例: X軸=月間広告費、Y軸=月間売上高

データは最低20〜30点あると、パターンが見えやすくなる。

ステップ2: 散布図をプロットする

各データポイントを座標上に点として打つ。

  • ExcelやGoogleスプレッドシートの「散布図」グラフを選択すれば自動で作成可能
  • 点が多い場合は、透明度を下げて重なりがわかるようにする
  • 必要に応じて**近似直線(トレンドライン)**を追加する
ステップ3: パターンを読み取る

点の散らばり方から関係性を判断する。

  • 右肩上がり: 正の相関 → Xが増えるとYも増える傾向
  • 右肩下がり: 負の相関 → Xが増えるとYは減る傾向
  • バラバラ: 無相関 → 2つの変数に関係性はなさそう
  • 曲線的: 非線形の関係 → 一定のところまでは増えるが頭打ちになるなど
  • 外れ値: 全体の傾向から大きく外れた点 → 特殊要因の調査が必要
ステップ4: 仮説を立てて深掘りする

散布図で見えたパターンをもとに仮説を立て、追加分析を行う

  • 正の相関がある → 本当に因果関係か?第三の変数が影響していないか?
  • 外れ値がある → その月だけ特別なキャンペーンがあった?
  • 層別(色分け)して深掘り: 地域別、季節別に色を変えるとさらに見えるものがある

散布図は「気づきの入口」であり、ここから相関分析や回帰分析に進む。

具体例
#

例1:営業チームの訪問件数と受注率の関係を分析する

状況: 従業員200名のBtoB企業。営業担当者30名の月間データを散布図でプロット(X軸=訪問件数、Y軸=受注件数)。

パターン(全体): 訪問件数が多いほど受注件数も多い傾向(正の相関、r=0.68)。

発見1: 訪問件数50件以上でも受注が2件以下の担当者が3名いた(外れ値)。調べると、全員が新規開拓のみで既存顧客へのフォローをしていなかった。

発見2: 訪問件数20件程度でも受注が8件以上の担当者が2名いた。この2名は事前のリサーチに時間をかけ、ターゲットを絞って訪問していた。

アクション:

  • 全員に「量だけでなく質を意識した訪問」を推奨
  • 高効率な2名の訪問準備プロセスをチームに共有

チーム全体の受注率は**15%→22%**に改善。散布図の「外れ値」が最も価値のある発見だった。

例2:コンビニの気温と売上の関係から発注を最適化する

状況: コンビニチェーン50店舗。アイスクリームカテゴリの日次売上と最高気温の関係を散布図で分析(180日分のデータ)。

パターン: 25℃までは気温と売上がほぼ比例(正の相関)。25〜32℃では売上が急増。しかし33℃以上になると売上が頭打ち(非線形パターン)。

発見: 35℃超の猛暑日は、人が外出を控えるためコンビニ来店数自体が減少。「暑いほど売れる」は33℃までの話だった。

アクション:

  • 25〜32℃の日: アイス在庫を通常の1.5倍に増やす
  • 33℃以上の日: 在庫を1.2倍に抑える(過剰在庫を防ぐ)
  • 天気予報データと連動した自動発注ルールを設定

廃棄ロスは年間**12%**削減。もし線形の相関だけ見ていたら、猛暑日に過剰発注していたはずだ。非線形パターンの発見がこの差を生んだ。

例3:学習塾が指導時間と成績の関係を分析する

状況: 生徒120名の学習塾。保護者から「もっと授業時間を増やしてほしい」という要望が多い。本当に時間を増やせば成績は上がるのか、データで検証する。

散布図の結果(X軸=週あたり塾での学習時間、Y軸=偏差値の変化):

  • 週3〜8時間: 正の相関あり。時間が増えるほど偏差値が上がる
  • 週8時間以上: ばらつきが大きくなり、相関が弱くなる
  • 週12時間以上の生徒6名のうち、3名は偏差値が下がっていた

層別分析(色分け): 週12時間以上で偏差値が下がった3名の共通点 → 睡眠時間が5時間以下。疲労で授業中の集中力が低下していた。

「週8時間まで最適、それ以上は睡眠とのバランスが重要」という知見を保護者説明会で共有。生徒の平均偏差値は半年で3.2ポイント向上した。散布図1枚が「やみくもに時間を増やせばいい」という思い込みを覆した。

やりがちな失敗パターン
#

  1. 相関を因果と混同する — 散布図で相関が見えても、それが因果関係とは限らない。「アイスの売上と溺死事故に相関がある」のは気温という共通原因があるから。第三の変数を常に疑う
  2. 外れ値を無視する — 全体の傾向だけ見て外れ値をスルーすると、重要な発見を見逃す。外れ値こそ深掘りの宝庫
  3. データが少なすぎる状態で判断する — 5〜10点の散布図で「相関がある」と結論づけるのは危険。最低20点、できれば50点以上で判断すべき
  4. 非線形パターンを見逃す — 近似直線だけ見ていると、曲線的な関係を見落とす。まずは点の散らばりを肉眼で確認し、直線以外のパターンにも注意を払う

まとめ
#

散布図分析は、2つの変数の関係を視覚的に素早く把握するための基本ツール。統計の知識がなくても「関係がありそうかどうか」を直感的に判断でき、外れ値の発見にも強い。まずは気になる2つの数値データを選び、ExcelやGoogleスプレッドシートでプロットしてみよう。