ひとことで言うと#
複数の観測変数の背後に隠れている「共通因子」を見つけ出す手法。たとえばアンケートの30問の回答パターンから、「品質志向」「価格志向」「ブランド志向」のような3つの潜在因子を発見し、人の行動や心理の構造を明らかにする。
押さえておきたい用語#
- 潜在因子(Latent Factor)
- 直接観測できないが、複数の変数の背後に共通して存在する隠れた要因のこと。因子分析の目的はこの潜在因子を発見すること。
- 因子負荷量(Factor Loading)
- 各観測変数と因子との相関の強さを示す数値のこと。0.4以上であればその因子に属すると判断するのが一般的。
- 因子回転(Factor Rotation)
- 因子の解釈をしやすくするために因子軸を回転させる操作のこと。バリマックス回転(直交)とプロマックス回転(斜交)が代表的。
- KMO検定(Kaiser-Meyer-Olkin)
- データが因子分析に適しているかどうかを判定する指標のこと。0.6以上で適用可能、0.8以上が望ましい。
- 寄与率(Variance Explained)
- 各因子がデータ全体の分散をどの程度説明しているかの割合のこと。全因子の寄与率の合計が高いほど、因子がデータをよく説明している。
因子分析の全体像#
こんな悩みに効く#
- アンケートの設問数が多すぎて、結果をどうまとめたらいいかわからない
- 顧客の購買行動の裏にある「本当のニーズ」を知りたい
- 「なんとなく似た傾向がある」変数群を、科学的に根拠を持ってグルーピングしたい
基本の使い方#
因子分析に適したデータを用意する。
適したデータ:
- リッカート尺度のアンケート(5段階評価など)が最も一般的
- 変数間に相関がある(完全に独立した変数からは因子は出ない)
- サンプル数は変数数の5〜10倍以上が望ましい(20問のアンケートなら100〜200人以上)
前処理:
- 欠損値の処理(削除 or 補完)
- 外れ値の確認
- 相関行列を確認し、変数間に十分な相関があるか(KMO検定で0.6以上が目安)
データの背後にある因子がいくつあるかを判断する。
判断方法:
- カイザー基準: 固有値が1以上の因子を採用(最も一般的)
- スクリープロット: 固有値の低下が緩やかになるポイントの手前で打ち切る
- 並行分析: ランダムデータの固有値と比較し、それを上回る因子のみ採用(最も正確)
- 理論的妥当性: 「この因子数は概念的に説明がつくか?」をビジネス知識で判断
3〜7因子に収まるケースが多い。
因子分析を実行し、因子回転で解釈しやすい結果を得る。
因子回転とは:
- そのままの結果では、どの変数がどの因子に属するか曖昧なことが多い
- 回転をかけることで、各変数がどの因子に強く属するかが明確になる
代表的な回転方法:
| 回転方法 | 特徴 | 使い分け |
|---|---|---|
| バリマックス回転 | 因子間は無相関(直交) | 因子が独立していると想定される場合 |
| プロマックス回転 | 因子間の相関を許容(斜交) | 因子同士が関連していると想定される場合 |
結果として因子負荷量行列が得られる。各変数の因子負荷量が0.4以上の因子に、その変数が属すると判断する。
各因子に高く負荷する変数の内容を読み解き、因子に意味のある名前をつける。
例:
- 因子1に「素材の質」「耐久性」「仕上げの丁寧さ」が高負荷 → 「品質志向因子」
- 因子2に「価格の安さ」「セール情報」「コスパ」が高負荷 → 「価格志向因子」
- 因子3に「ブランドの知名度」「SNSでの話題性」「デザイン」が高負荷 → 「トレンド志向因子」
この因子ごとにスコアを算出し、セグメンテーションやマーケティング戦略に活用する。
具体例#
状況: 化粧品ブランドが、顧客500人に対して購買動機に関する20問のアンケート(5段階評価)を実施。マーケティング戦略の見直しに活用したい。
因子分析の結果(バリマックス回転後):
| 因子 | 高負荷の設問 | 因子名 | 寄与率 |
|---|---|---|---|
| 因子1 | 「肌への優しさ」「成分の安全性」「敏感肌対応」「無添加」 | 「安全・安心因子」 | 25% |
| 因子2 | 「パッケージデザイン」「SNS映え」「限定品」「話題性」 | 「トレンド因子」 | 18% |
| 因子3 | 「シミ改善」「エイジングケア効果」「即効性」 | 「効果実感因子」 | 15% |
| 因子4 | 「価格帯」「コスパ」「ドラッグストアで買える」 | 「コスパ因子」 | 12% |
因子スコアによるセグメンテーション:
- セグメントA「安全・安心重視層」(因子1が高い)→ 30代後半〜40代、成分訴求が効果的
- セグメントB「トレンド重視層」(因子2が高い)→ 20代、SNS施策・限定品戦略が有効
- セグメントC「効果実感重視層」(因子3が高い)→ 40代以上、ビフォーアフターや口コミが響く
セグメントBにSNSキャンペーンを集中投下し、限定品の売上が前年比**180%**に。因子分析なしには見えなかった「トレンド因子」がマーケ戦略の鍵になった。
状況: 従業員200名のBtoB SaaS企業。顧客300社に対して満足度調査(25問・5段階評価)を実施したが、項目が多すぎて「結局何を改善すべきか」が不明確。
因子分析の結果(プロマックス回転後):
| 因子 | 高負荷の設問 | 因子名 | 寄与率 |
|---|---|---|---|
| 因子1 | 「操作が直感的」「マニュアル不要」「設定が簡単」 | 「使いやすさ因子」 | 28% |
| 因子2 | 「問い合わせへの応答速度」「担当者の知識」「解決率」 | 「サポート品質因子」 | 22% |
| 因子3 | 「処理速度」「ダウンタイムの少なさ」「データ容量」 | 「技術信頼性因子」 | 16% |
因子スコアと解約率の相関:
- 因子2(サポート品質)のスコアが低い企業の解約率: 18%
- 因子2のスコアが高い企業の解約率: 3%
- 因子1、因子3と解約率の相関は弱い
25項目の満足度を3因子に集約したことで、「サポート品質が解約の最大要因」と特定。サポートチームを3名増員し、応答速度を48時間→12時間に短縮した結果、翌四半期の解約率が12%→7%に改善。年間売上で約8,000万円のインパクト。
状況: 地方観光協会が観光客1,200名にアンケート(15問・5段階評価)を実施。限られた予算で最も効果的なプロモーションを選びたい。
因子分析の結果:
| 因子 | 高負荷の設問 | 因子名 | 寄与率 |
|---|---|---|---|
| 因子1 | 「温泉」「旅館」「地元料理」「癒し」 | 「和の癒し因子」 | 30% |
| 因子2 | 「アクティビティ」「体験型」「SNS投稿」「フォトスポット」 | 「体験・発信因子」 | 20% |
| 因子3 | 「アクセス」「宿泊料金」「交通費」 | 「コスト・利便性因子」 | 14% |
年代別の因子スコア比較:
- 20〜30代: 因子2(体験・発信)のスコアが最も高い
- 40〜50代: 因子1(和の癒し)が圧倒的に高い
- 60代以上: 因子3(コスト・利便性)を最重視
予算を年代別に配分し、SNS広告は「体験・発信」訴求で20〜30代向け、旅行雑誌は「和の癒し」訴求で40〜50代向けに。広告費の総額は変えず、因子分析に基づくターゲティングで前年比観光客数が22%増加した。
やりがちな失敗パターン#
- PCA(主成分分析)と混同する — PCAは「変数をまとめる」、因子分析は「背後の原因を見つける」。目的が異なる。「なぜこの変数群が相関しているのか」を知りたいなら因子分析を選ぶ
- 因子に名前をつけず数字のまま使う — 「因子1のスコアが高い顧客」では施策に落とし込めない。因子の命名はビジネス価値を生む最も重要なステップ
- サンプルサイズが不足している — 変数20個に対してサンプル50人では信頼性のある因子は出ない。最低でも変数数×5、できれば×10のサンプルを確保する
- 回転方法を検討せずデフォルトで実行する — 因子間に相関があるデータに直交回転を使うと結果が歪む。理論的に因子間の相関が想定されるならプロマックス回転を選ぶ
まとめ#
因子分析は、観測データの背後に隠れた共通因子を発見し、人の行動や心理の構造を明らかにする手法。アンケート分析、顧客理解、ブランド調査などに特に強い。まずは5段階評価のアンケートデータがあれば、因子分析を試してみよう。「なんとなく感じていた傾向」が、統計的な裏付けのある因子として言語化される。