クラスター分析

英語名 Cluster Analysis
読み方 クラスター アナリシス
難易度
所要時間 3〜6時間
提唱者 ロバート・トライオン(1939年に概念を確立)
目次

ひとことで言うと
#

大量のデータを類似性に基づいて自動的にグループ(クラスター)に分ける手法。人間の直感では見つけられない顧客セグメントや商品グループを発見し、的確なマーケティングや商品戦略につなげられる。

押さえておきたい用語
#

押さえておきたい用語
K-means法
データをK個のクラスターに分割する最も基本的なクラスタリングアルゴリズムのこと。高速でシンプルだが、クラスター数Kを事前に指定する必要がある。
エルボー法(Elbow Method)
クラスター数を増やしながらまとまりの良さを計測し、改善が鈍化する**「肘」の位置を最適なクラスター数とする**手法。
シルエットスコア(Silhouette Score)
各データ点が自分のクラスターにどれだけ適切に属しているかを**-1〜1の値で評価する指標**のこと。1に近いほどクラスタリングの質が高い。
標準化(Standardization)
異なるスケールの変数を平均0・標準偏差1に変換する前処理を指す。標準化せずにクラスタリングすると、スケールの大きい変数に結果が支配される。

クラスター分析の全体像
#

クラスター分析:変数選択→クラスタリング→解釈→施策のフロー
変数選択目的に合った特徴量を選び標準化クラスター数決定エルボー法やシルエット分析で最適数を判断実行・解釈クラスターに名前をつけて特徴を言語化施策設計クラスターごとに異なるアクションを設計クラスターAクラスターBクラスターC
クラスター分析の進め方フロー
1
変数選択・標準化
目的に合う特徴量を選び前処理
2
クラスター数決定
エルボー法で最適数を判断
3
実行・解釈
クラスターに名前をつけて言語化
施策設計・実行
クラスター別に異なる施策を実行

こんな悩みに効く
#

  • 顧客を「VIP」「一般」「休眠」に分けたいが、基準を決められない
  • 全顧客に同じメルマガを送っているが、もっとパーソナライズしたい
  • データが多すぎて、人間の目ではパターンを見つけられない

基本の使い方
#

ステップ1: 分析に使う変数を選ぶ

クラスター分析に投入する**変数(特徴量)**を選ぶ。

  • 顧客分析の例: 購入頻度、購入金額、最終購入日、購入カテゴリ数
  • 商品分析の例: 価格帯、サイズ、売上数、レビュー数

選び方のコツ:

  • グルーピングの目的に関連する変数を選ぶ
  • スケール(単位)が異なる変数は標準化する(平均0、標準偏差1に変換)
  • 強く相関する変数が多い場合は主成分分析で次元削減

ポイント: 変数の選び方でクラスターの意味が変わる。**「何のためにグループ分けするか」**を先に明確にする。

ステップ2: クラスター数を決める

データをいくつのグループに分けるか決める。

代表的な方法:

  • エルボー法: クラスター数を増やしながら「まとまりの良さ」を計測し、改善が鈍化するポイント(肘の位置)を選ぶ
  • シルエット分析: 各データ点が自分のクラスターにどれだけ適切に属しているかを評価
  • ビジネスの実用性: 運用できるセグメント数は3〜7が現実的

ポイント: 数学的に最適な数と、ビジネスで使いやすい数は必ずしも一致しない。実務で使えるかを重視する。

ステップ3: クラスタリングを実行する

代表的なアルゴリズムでクラスタリングを実行する。

手法特徴適した場面
K-means高速でシンプル大規模データ、球状のクラスター
階層的クラスタリング樹形図で構造を可視化小〜中規模データ、構造を探索
DBSCANノイズに強い、形状を問わない外れ値がある場合

実行ツール: Python(scikit-learn)、R、Excel(ソルバー)、Google Sheetsのアドオンなど。

ステップ4: クラスターを解釈してアクションにつなげる

できたクラスターに名前をつけて特徴を言語化する

  • 各クラスターの平均値や分布を比較し、特徴を明らかにする
  • ビジネス上意味のあるラベルをつける(例: 「お得意様」「新規探索型」「休眠予備軍」)
  • クラスターごとに異なる施策を設計する

ポイント: クラスターの結果を鵜呑みにせず、ドメイン知識と照らし合わせて妥当性を確認する。意味のないグループ分けになっていないか要チェック。

具体例
#

例1:会員制フィットネスジムが退会率8%→5%に改善する

状況: 会員5,000人のデータを分析し、退会防止と売上向上のための施策を打ちたい。

使用した変数: 月間来店回数、利用時間帯、継続月数、オプション利用数

K-meansで4クラスターに分類した結果:

クラスター人数来店/月主な時間帯継続月数特徴
A「朝活エリート」800人15回早朝24ヶ月高頻度・長期継続
B「週末ライト」1,500人4回週末午後8ヶ月低頻度・短期
C「夜型トレーニー」1,200人10回平日夜14ヶ月中頻度・安定
D「幽霊会員」1,500人0.5回バラバラ4ヶ月ほぼ来店なし

クラスター別施策:

  • A: ロイヤルティプログラムでアンバサダーに(口コミ促進)
  • B: 平日夜の体験クラス招待で来店頻度アップ
  • C: パーソナルトレーニングの提案で客単価アップ
  • D: 来店のきっかけ作り(友人同伴無料キャンペーン)or 退会前ヒアリング

クラスター別施策により、3ヶ月後の全体退会率が8%→5%に改善。特にD群への施策で月40件の退会防止に成功した。

例2:ECアパレルが商品1,200点をグルーピングしてMD戦略を立てる

状況: 年商8億円のアパレルEC。商品1,200SKUの品揃えが肥大化し、在庫効率が悪化。売れ筋と死に筋の特徴を明確にしたい。

使用した変数: 販売数、売上金額、返品率、レビュー数、レビュー平均スコア、値引き率

K-meansで5クラスターに分類:

クラスターSKU数月間売上返品率レビュースコア特徴
「定番ヒット」1205%4.5安定的に売れる主力商品
「バズ商品」8018%3.8SNSで話題だが返品多い
「隠れ良品」2003%4.7知名度は低いが顧客満足度が高い
「値引き依存」3008%3.5セール時のみ売れる
「死に筋」50012%3.0売上・評価ともに低い

施策:

  • 「定番ヒット」: 在庫を厚めに確保、リピート促進メール
  • 「隠れ良品」: トップページでの露出を増やし認知向上
  • 「バズ商品」: サイズガイドの充実で返品率を下げる
  • 「死に筋」500SKU中300を段階的に廃番

クラスター分析で浮き彫りになった「隠れ良品」の存在が大きかった。露出を増やしただけで売上が平均42%増加し、6ヶ月後に在庫回転率は年3.2回→4.8回に改善。死に筋の廃番で倉庫コストも年間1,200万円削減された。

例3:地方自治体が移住希望者3,000人をセグメントして施策を最適化する

状況: 地方自治体が移住促進サイトの登録者3,000人に対し、効果的なアプローチをしたい。これまで全員に同じパンフレットを送付していた。

使用した変数: 年齢、世帯構成、関心テーマ(農業/起業/テレワーク/子育て)、サイト閲覧ページ、イベント参加回数

階層的クラスタリングで4セグメントを抽出:

クラスター人数年齢中央値世帯構成関心テーマ
「子育て移住」850人34歳夫婦+子子育て環境、教育
「テレワーク移住」720人38歳単身/夫婦テレワーク、住環境
「リタイア移住」600人62歳夫婦農業体験、医療アクセス
「起業移住」830人29歳単身起業支援、コスト

セグメント別施策:

  • 子育て移住: 学校見学ツアー、子育て支援制度の詳細案内
  • テレワーク移住: コワーキングスペース+お試し居住プラン
  • リタイア移住: 医療機関マップ+農業体験イベント
  • 起業移住: 創業補助金+先輩起業家との座談会

セグメント別施策に切り替えた結果、移住相談会への参加率が12%→28%に向上。年間の移住実績は前年比45%増の78世帯に。施策のコストは据え置きのまま、「伝わる情報」を届けただけで成果が倍増した。

やりがちな失敗パターン
#

  1. 変数を標準化せずに分析する — 「年収(万円単位)」と「年齢(歳単位)」をそのまま使うと、スケールの大きい年収がクラスタリングを支配してしまう。必ず標準化してから分析する
  2. クラスター数を恣意的に決める — 「なんとなく3グループ」ではなく、エルボー法やシルエット分析で客観的な根拠を持って決める。複数のクラスター数を試して比較することが重要
  3. 分けて終わりにする — きれいにグループ分けできても、各クラスターに異なるアクションを設計しなければ意味がない。「分類」はゴールではなく、施策の出発点
  4. 一度の分析結果を固定する — 顧客の行動は変化する。半年〜1年ごとにクラスタリングを再実行し、セグメントの変化を追跡する

まとめ
#

クラスター分析は、データを類似性に基づいて自動的にグループ分けし、隠れたパターンを発見する手法。顧客セグメンテーションや商品分類に特に威力を発揮する。まずは自社の顧客データから3〜5つの変数を選び、K-meansで3〜5クラスターに分けるところから始めよう。