ひとことで言うと#
連続的なデータを一定の区間(ビン)に区切って棒グラフにすることで、「データがどのあたりに集中しているか」「ばらつきはどの程度か」「偏りはないか」を一目で読み取れる分析手法。平均値だけではわからないデータの「形」が見える。
押さえておきたい用語#
- ビン(階級)
- ヒストグラムの各区間のこと。データの範囲を等間隔に分割した1つ1つの区間を指す。ビンの幅設定が分析の精度を左右する。
- 度数(頻度)
- 各ビンに含まれるデータの個数のこと。棒の高さで表現される。度数が最も大きいビンが分布の「ピーク」。
- 正規分布(釣鐘型)
- 平均値を中心に左右対称のベルカーブを描く分布パターン。プロセスが安定している状態を示すことが多い。
- 歪度(スキューネス)
- 分布の左右の非対称さを示す指標。右に裾が長い場合は「正の歪度」、左に裾が長い場合は「負の歪度」という。
- 外れ値
- 他のデータから大きく離れた値のこと。ヒストグラム上では分布の端に孤立した棒として表れる。
ヒストグラム分析の全体像#
こんな悩みに効く#
- 平均値は把握しているが、実際のデータの散らばり具合がわからない
- 外れ値や異常値が混じっていないか確認したい
- 「ほとんどの顧客は1,000円以下だが、一部が10万円超」のような偏りを把握したい
基本の使い方#
分析対象の数値データを集め、最小値と最大値を確認する。
- 例: 顧客の月間購入金額データ(500件)
- 最小値: 200円、最大値: 25,000円
- データ数が30件以上あればヒストグラムは有効に機能する
ポイント: 極端な外れ値がある場合は、別途記録しておき分析時に考慮する。
データの範囲を5〜15程度の区間に等分する。
- 上の例では区間幅を2,500円に設定:
- 0〜2,500円、2,501〜5,000円、5,001〜7,500円……
- 区間の数の目安: データ数の平方根(500件なら√500 ≒ 22 → 10〜15区間程度)
区間幅が狭すぎるとギザギザになり、広すぎると情報が潰れるので、何パターンか試すとよい。
各区間に入るデータの個数(度数)を数え、棒グラフにする。
代表的な分布パターン:
- 正規分布型(釣鐘型): 中央にピークがあり左右対称 → 安定した状態
- 右に裾が長い型: 低い方に集中し、右に長く伸びる → 一部の高額顧客がいる
- 二山型: ピークが2つ → 異なる2つの母集団が混在している可能性
- 絶壁型: 片側がスパッと切れている → 検査で弾かれている等の要因
分布の形からビジネス上の示唆を引き出す。
- 正規分布 → プロセスは安定。規格内に収まっているか確認
- 二山型 → 何が2グループを生んでいるか調査(曜日?担当者?)
- 裾が長い → 高額顧客を特別扱いするVIP施策の可能性
- ばらつきが大きい → プロセスの標準化が必要
具体例#
状況: コールセンターの1日の通話時間データ(200件)をヒストグラムで分析。
| 通話時間 | 件数 |
|---|---|
| 0〜3分 | 45件 |
| 3〜6分 | 70件 |
| 6〜9分 | 40件 |
| 9〜12分 | 20件 |
| 12〜15分 | 10件 |
| 15分以上 | 15件 |
発見: 3〜6分にピークがあるが、15分以上の「長時間通話」が15件(7.5%)存在。
深掘り: 15分以上の通話を調べると、すべて「解約手続き」に関する問い合わせだった。手続きが複雑でオペレーターも説明に時間がかかっていた。
対策: 解約手続きの専用マニュアルとフローチャートを整備し、解約ページにセルフサービス機能を追加。
結果: 15分以上の通話が15件→5件に67%減少。平均通話時間も6.2分→5.1分に短縮。
状況: 精密部品の寸法データ300個をヒストグラム化。規格は10.0mm±0.3mm。
発見: 分布が二山型を示していた。午前シフトは平均10.05mm(規格内に安定)、午後シフトは平均10.25mm(規格上限に偏り)。
原因: 午後シフトでは機械の温度上昇により加工寸法が上方にドリフトしていた。
対策: 午後開始時に機械のキャリブレーションを追加実施。
結果: 二山型が正規分布型に変化。不良率が8%→2%に改善し、月間の廃棄コストが約45万円削減。
状況: ECサイトの月間購入金額データ(500件)を分析。平均購入金額は4,200円。
ヒストグラムの結果: 右に裾が長い分布。70%の顧客が3,000円以下に集中する一方、2万円以上の顧客が全体の3%(15人)存在。
発見: 平均4,200円は上位層に引き上げられており、中央値は2,800円。大多数の顧客体験は「3,000円以下」。
施策:
- 上位3%(15人)にVIPプログラムを導入(送料無料+先行セール)
- 3,000〜5,000円帯の顧客に「あと1,000円で送料無料」施策
結果: VIP層の月間購入額が平均22,000円→28,000円に向上。3,000〜5,000円帯の購入者が20%増加。月間売上が全体で12%向上。
やりがちな失敗パターン#
- 区間幅の設定が不適切 — 区間が広すぎると分布のピークや谷が潰れて見えなくなる。逆に狭すぎるとノイズが目立つ。最低3パターンの区間幅で試すのがおすすめ
- 平均値だけで判断してしまう — 平均が同じでもばらつきが全く違うデータは多い。ヒストグラムを見ずに平均だけで「正常」と判断するのは危険
- 異なる母集団を混ぜて分析する — 新規顧客とリピーターを混ぜると二山型になるが、それは分布の問題ではなくデータの混在。セグメントを分けて個別にヒストグラムを作るべき
- 視覚的な印象だけで結論を出す — 「なんとなく正規分布に見える」で終わらせず、標準偏差や歪度などの統計量と合わせて客観的に判断する
まとめ#
ヒストグラム分析は、データの分布の「形」を視覚的に把握するための基本ツール。平均値だけではわからないばらつきや偏り、外れ値の存在を一目で発見できる。Excelやスプレッドシートで簡単に作れるので、まずは手元の数値データで区間を設定してグラフを描いてみよう。