ひとことで言うと#
大量のデータを類似性に基づいて自動的にグループ(クラスター)に分ける手法。人間の直感では見つけられない顧客セグメントや商品グループを発見し、的確なマーケティングや商品戦略につなげられる。
押さえておきたい用語#
- K-means法
- データをK個のクラスターに分割する最も基本的なクラスタリングアルゴリズムのこと。高速でシンプルだが、クラスター数Kを事前に指定する必要がある。
- エルボー法(Elbow Method)
- クラスター数を増やしながらまとまりの良さを計測し、改善が鈍化する**「肘」の位置を最適なクラスター数とする**手法。
- シルエットスコア(Silhouette Score)
- 各データ点が自分のクラスターにどれだけ適切に属しているかを**-1〜1の値で評価する指標**のこと。1に近いほどクラスタリングの質が高い。
- 標準化(Standardization)
- 異なるスケールの変数を平均0・標準偏差1に変換する前処理を指す。標準化せずにクラスタリングすると、スケールの大きい変数に結果が支配される。
クラスター分析の全体像#
こんな悩みに効く#
- 顧客を「VIP」「一般」「休眠」に分けたいが、基準を決められない
- 全顧客に同じメルマガを送っているが、もっとパーソナライズしたい
- データが多すぎて、人間の目ではパターンを見つけられない
基本の使い方#
クラスター分析に投入する**変数(特徴量)**を選ぶ。
- 顧客分析の例: 購入頻度、購入金額、最終購入日、購入カテゴリ数
- 商品分析の例: 価格帯、サイズ、売上数、レビュー数
選び方のコツ:
- グルーピングの目的に関連する変数を選ぶ
- スケール(単位)が異なる変数は標準化する(平均0、標準偏差1に変換)
- 強く相関する変数が多い場合は主成分分析で次元削減
ポイント: 変数の選び方でクラスターの意味が変わる。**「何のためにグループ分けするか」**を先に明確にする。
データをいくつのグループに分けるか決める。
代表的な方法:
- エルボー法: クラスター数を増やしながら「まとまりの良さ」を計測し、改善が鈍化するポイント(肘の位置)を選ぶ
- シルエット分析: 各データ点が自分のクラスターにどれだけ適切に属しているかを評価
- ビジネスの実用性: 運用できるセグメント数は3〜7が現実的
ポイント: 数学的に最適な数と、ビジネスで使いやすい数は必ずしも一致しない。実務で使えるかを重視する。
代表的なアルゴリズムでクラスタリングを実行する。
| 手法 | 特徴 | 適した場面 |
|---|---|---|
| K-means | 高速でシンプル | 大規模データ、球状のクラスター |
| 階層的クラスタリング | 樹形図で構造を可視化 | 小〜中規模データ、構造を探索 |
| DBSCAN | ノイズに強い、形状を問わない | 外れ値がある場合 |
実行ツール: Python(scikit-learn)、R、Excel(ソルバー)、Google Sheetsのアドオンなど。
できたクラスターに名前をつけて特徴を言語化する。
- 各クラスターの平均値や分布を比較し、特徴を明らかにする
- ビジネス上意味のあるラベルをつける(例: 「お得意様」「新規探索型」「休眠予備軍」)
- クラスターごとに異なる施策を設計する
ポイント: クラスターの結果を鵜呑みにせず、ドメイン知識と照らし合わせて妥当性を確認する。意味のないグループ分けになっていないか要チェック。
具体例#
状況: 会員5,000人のデータを分析し、退会防止と売上向上のための施策を打ちたい。
使用した変数: 月間来店回数、利用時間帯、継続月数、オプション利用数
K-meansで4クラスターに分類した結果:
| クラスター | 人数 | 来店/月 | 主な時間帯 | 継続月数 | 特徴 |
|---|---|---|---|---|---|
| A「朝活エリート」 | 800人 | 15回 | 早朝 | 24ヶ月 | 高頻度・長期継続 |
| B「週末ライト」 | 1,500人 | 4回 | 週末午後 | 8ヶ月 | 低頻度・短期 |
| C「夜型トレーニー」 | 1,200人 | 10回 | 平日夜 | 14ヶ月 | 中頻度・安定 |
| D「幽霊会員」 | 1,500人 | 0.5回 | バラバラ | 4ヶ月 | ほぼ来店なし |
クラスター別施策:
- A: ロイヤルティプログラムでアンバサダーに(口コミ促進)
- B: 平日夜の体験クラス招待で来店頻度アップ
- C: パーソナルトレーニングの提案で客単価アップ
- D: 来店のきっかけ作り(友人同伴無料キャンペーン)or 退会前ヒアリング
クラスター別施策により、3ヶ月後の全体退会率が8%→5%に改善。特にD群への施策で月40件の退会防止に成功した。
状況: 年商8億円のアパレルEC。商品1,200SKUの品揃えが肥大化し、在庫効率が悪化。売れ筋と死に筋の特徴を明確にしたい。
使用した変数: 販売数、売上金額、返品率、レビュー数、レビュー平均スコア、値引き率
K-meansで5クラスターに分類:
| クラスター | SKU数 | 月間売上 | 返品率 | レビュースコア | 特徴 |
|---|---|---|---|---|---|
| 「定番ヒット」 | 120 | 高 | 5% | 4.5 | 安定的に売れる主力商品 |
| 「バズ商品」 | 80 | 高 | 18% | 3.8 | SNSで話題だが返品多い |
| 「隠れ良品」 | 200 | 中 | 3% | 4.7 | 知名度は低いが顧客満足度が高い |
| 「値引き依存」 | 300 | 中 | 8% | 3.5 | セール時のみ売れる |
| 「死に筋」 | 500 | 低 | 12% | 3.0 | 売上・評価ともに低い |
施策:
- 「定番ヒット」: 在庫を厚めに確保、リピート促進メール
- 「隠れ良品」: トップページでの露出を増やし認知向上
- 「バズ商品」: サイズガイドの充実で返品率を下げる
- 「死に筋」500SKU中300を段階的に廃番
クラスター分析で浮き彫りになった「隠れ良品」の存在が大きかった。露出を増やしただけで売上が平均42%増加し、6ヶ月後に在庫回転率は年3.2回→4.8回に改善。死に筋の廃番で倉庫コストも年間1,200万円削減された。
状況: 地方自治体が移住促進サイトの登録者3,000人に対し、効果的なアプローチをしたい。これまで全員に同じパンフレットを送付していた。
使用した変数: 年齢、世帯構成、関心テーマ(農業/起業/テレワーク/子育て)、サイト閲覧ページ、イベント参加回数
階層的クラスタリングで4セグメントを抽出:
| クラスター | 人数 | 年齢中央値 | 世帯構成 | 関心テーマ |
|---|---|---|---|---|
| 「子育て移住」 | 850人 | 34歳 | 夫婦+子 | 子育て環境、教育 |
| 「テレワーク移住」 | 720人 | 38歳 | 単身/夫婦 | テレワーク、住環境 |
| 「リタイア移住」 | 600人 | 62歳 | 夫婦 | 農業体験、医療アクセス |
| 「起業移住」 | 830人 | 29歳 | 単身 | 起業支援、コスト |
セグメント別施策:
- 子育て移住: 学校見学ツアー、子育て支援制度の詳細案内
- テレワーク移住: コワーキングスペース+お試し居住プラン
- リタイア移住: 医療機関マップ+農業体験イベント
- 起業移住: 創業補助金+先輩起業家との座談会
セグメント別施策に切り替えた結果、移住相談会への参加率が12%→28%に向上。年間の移住実績は前年比45%増の78世帯に。施策のコストは据え置きのまま、「伝わる情報」を届けただけで成果が倍増した。
やりがちな失敗パターン#
- 変数を標準化せずに分析する — 「年収(万円単位)」と「年齢(歳単位)」をそのまま使うと、スケールの大きい年収がクラスタリングを支配してしまう。必ず標準化してから分析する
- クラスター数を恣意的に決める — 「なんとなく3グループ」ではなく、エルボー法やシルエット分析で客観的な根拠を持って決める。複数のクラスター数を試して比較することが重要
- 分けて終わりにする — きれいにグループ分けできても、各クラスターに異なるアクションを設計しなければ意味がない。「分類」はゴールではなく、施策の出発点
- 一度の分析結果を固定する — 顧客の行動は変化する。半年〜1年ごとにクラスタリングを再実行し、セグメントの変化を追跡する
まとめ#
クラスター分析は、データを類似性に基づいて自動的にグループ分けし、隠れたパターンを発見する手法。顧客セグメンテーションや商品分類に特に威力を発揮する。まずは自社の顧客データから3〜5つの変数を選び、K-meansで3〜5クラスターに分けるところから始めよう。