ひとことで言うと#
データ分析プロジェクトをビジネス理解→データ理解→データ準備→モデリング→評価→展開の6フェーズで回し、「何のために分析するのか」から「現場でどう使うか」まで一気通貫で管理するプロセスモデル。
押さえておきたい用語#
- ビジネス理解(Business Understanding)
- 分析の目的・ゴール・成功基準をビジネス視点で定義するフェーズ。ここが曖昧だと、どれだけ高度な分析をしても成果につながらない。
- データ理解(Data Understanding)
- 利用可能なデータを収集し、品質・量・偏りを把握する工程を指す。「そもそも使えるデータがあるのか」を最初に確かめる。
- モデリング(Modeling)
- 統計手法や機械学習アルゴリズムを適用して、データからパターンや予測ルールを抽出する作業である。
- 展開(Deployment)
- 構築したモデルや分析結果を実際の業務プロセスに組み込むフェーズ。レポート化・API化・自動化などの形で現場に届ける手法。
CRISP-DMの全体像#
こんな悩みに効く#
- データ分析プロジェクトをどこから手をつけていいかわからない
- 分析の途中で「そもそも何のためにやってたんだっけ?」と迷子になる
- モデルは作ったのに現場で使われず放置されている
基本の使い方#
「何を達成したいのか」をビジネス言語で定義する。
- ビジネス課題を特定する(例: 解約率を3ヶ月で5%下げたい)
- 成功基準を数値で決める(例: 予測精度80%以上、ROI2倍以上)
- 分析に使えるリソース(人・時間・データ)を棚卸しする
ここを曖昧にすると、後工程すべてがブレる。ビジネス側とデータ側が同じ言葉で合意するのが最重要ポイント。
利用可能なデータを集めて、品質と量をチェックする。
- データソースの一覧を作成する(社内DB、外部API、Excelファイルなど)
- 欠損値の割合、外れ値、重複レコードを確認する
- 「ビジネス目的に必要なデータがそろっているか」を判定する
データが足りない場合は、追加取得するか、ビジネス目的を修正するかの判断をここで行う。
全工程の中で最も時間がかかるフェーズ(全体の60〜80%を占める)。
- 欠損値の補完・除外ルールを決める
- 変数の変換・エンコーディングを行う
- 特徴量エンジニアリングで新しい変数を作る
- 学習用データと検証用データを分割する
このフェーズの品質が、モデルの精度を直接左右する。
目的に合った手法を選んでデータに適用する。
- 複数のアルゴリズムを試し、精度を比較する
- パラメータをチューニングして最適化する
- データ準備に戻って再加工が必要な場合もある
1つの手法に固執せず、最低3つの手法を比較するのがベストプラクティス。
モデルの精度だけでなく、ビジネス要件を満たしているかを評価する。
- ステップ1で決めた成功基準をクリアしているか
- 結果をビジネス担当者が理解・納得できるか
- 運用時に想定されるリスクはないか
基準を満たさなければ、ステップ1に戻って目的を見直す。
分析結果を業務プロセスに組み込み、価値を届ける。
- レポート・ダッシュボード化、API化、自動バッチ処理などの実装形態を選ぶ
- 運用マニュアルと監視体制を整備する
- モデルの精度劣化を検知する仕組みを入れる
展開後も定期的にフェーズ1に戻り、ビジネス環境の変化に合わせてモデルを更新する。
具体例#
月額制のファッションECサイト(会員12万人)。解約率が月**4.2%で、年間売上の18%**に相当する損失が出ていた。
ビジネス理解: 解約率を4.2% → 3.0%以下に改善し、年間2,400万円の売上維持を目標に設定。
データ理解: 過去2年分の購買履歴・ログイン頻度・お気に入り登録数・カスタマーサポート問い合わせ履歴を収集。欠損率は全体の**7%**で許容範囲内。
データ準備: 「直近30日のログイン回数」「購入間隔の標準偏差」「お気に入り登録からの購入転換率」など23個の特徴量を作成。
モデリング: ロジスティック回帰・ランダムフォレスト・XGBoostの3手法を比較。XGBoostがAUC 0.87で最高精度。
評価: 解約リスク上位500名に限定クーポンを送る施策のシミュレーションで、ROI3.2倍と試算。ビジネス基準クリア。
展開: 毎週月曜にスコアリングバッチを実行し、上位リスク者をCRMに自動連携。3ヶ月後の解約率は**2.8%**まで低下し、目標を達成した。
自動車部品メーカー(従業員800名)の品質管理部門。目視検査に依存しており、不良品の見逃し率が1.2%、検査工程が生産のボトルネックになっていた。
ビジネス理解: 不良品見逃し率を0.3%以下に下げつつ、検査スループットを2倍にする。
データ理解: 検査画像15万枚(正常13万枚・不良2万枚)を収集。不良品の種類は傷・欠け・変色の3カテゴリ。画像の解像度にばらつきがあることが判明。
データ準備: 画像の解像度を統一し、不良カテゴリのラベル付けを品質管理のベテラン3名でクロスチェック。データ拡張で不良画像を5倍に増やした。
モデリング: CNNベースの画像分類モデルを構築。精度98.7%、再現率**99.1%**を達成。
評価: 実ラインでの1週間テストで見逃し率**0.2%**を記録。ただし「変色」カテゴリの精度が低く、照明条件の標準化が追加要件として浮上。
照明条件を統一した後、本番稼働を開始。検査工程のスループットは2.3倍に向上し、年間の不良品クレーム件数は前年比72%減となった。
地方の信用金庫(預金残高3,200億円)。融資審査が担当者の経験と勘に依存しており、デフォルト率にばらつきがあった。
ビジネス理解: 融資審査の判断基準を定量化し、デフォルト率を現状の2.1%から1.5%以下に抑えたい。
データ理解: 過去10年分の融資データ4,800件を収集。財務指標・業種・融資額・返済履歴を確認したところ、初期の1,200件は項目の定義が途中で変わっており、そのまま使えないことが判明。
データ準備: 定義変更後の3,600件に絞り、業種コードの統一と財務比率の再計算を実施。特徴量として「自己資本比率の3年トレンド」「同業種平均との売上乖離率」を新たに作成。
モデリング: ロジスティック回帰とLightGBMを比較。説明可能性が求められる金融業界のため、精度で若干劣るロジスティック回帰(AUC 0.82)を採用。
評価: 既存の審査結果と突合し、モデルが「高リスク」と判定した案件の実際のデフォルト率は8.3%。審査担当者が見逃していたパターンを14件検出。
審査担当者の判断を置き換えるのではなく、「リスクスコア」として参考情報を提供する形で展開。半年後のデフォルト率は**1.4%**に改善。ベテラン職員からも「若手の育成ツールとしても使える」と評価された。
やりがちな失敗パターン#
- ビジネス理解を飛ばしていきなりデータに触る — 「とりあえずデータ見てみよう」で始めると、分析の方向がブレて手戻りが膨大になる。まずビジネス課題と成功基準を30分で合意するだけで、後工程の無駄が激減する
- データ準備を軽視する — モデリングに時間を割きたくなるが、データの品質が低ければどんな高度なアルゴリズムも意味がない。全体の**60〜80%**をデータ準備に使う覚悟を持つ
- 展開フェーズの計画がない — 精度の高いモデルを作ったのに「Jupyter Notebookの中」で眠ったまま、というケースは非常に多い。プロジェクト開始時に誰がどう使うかまで決めておく
まとめ#
CRISP-DMは、データ分析プロジェクトを6つのフェーズで体系化し、「何のために分析するのか」から「現場でどう使うか」まで一貫して管理するプロセスモデル。特に重要なのは最初のビジネス理解と最後の展開で、この2つを軽視するとどれだけ優れたモデルもビジネス成果につながらない。まずは次の分析プロジェクトで、6フェーズのチェックリストを作るところから始めてみよう。