ひとことで言うと#
予測分析とは、過去のデータに潜むパターンや傾向を統計モデルや機械学習で抽出し、将来起こりうる結果を確率的に予測する手法。「何が起きたか」を振り返る記述分析の一歩先にあり、「これから何が起きそうか」に答えることで、先手を打った意思決定を可能にする。
押さえておきたい用語#
- 目的変数(Target Variable)
- 予測したい対象の変数のこと。売上金額、解約するかしないか(0/1)、故障までの時間などが該当する。
- 説明変数(Feature)
- 目的変数の予測に使う入力データを指す。特徴量とも呼ばれ、過去の購買頻度やアクセス回数などが該当する。
- 過学習(Overfitting)
- モデルが学習データに過度に適合し、未知のデータで精度が出ない状態のこと。データ量に対してモデルが複雑すぎると発生する。
- AUC(Area Under the Curve)
- 分類モデルの予測精度を0〜1で表す指標である。1に近いほど精度が高く、0.8以上で実用的とされる。
予測分析の全体像#
こんな悩みに効く#
- 来月の売上がどれくらいになるか見通しが立たない
- 顧客がいつ離脱するかを事前に察知したい
- 在庫の過不足を減らすために需要を精度よく読みたい
基本の使い方#
まず何を予測したいのかを明確にする。
- 目的変数の例: 来月の売上金額、顧客の解約確率、製品の故障時期
- ビジネス上の意思決定との紐付け: 予測結果をもとにどんなアクションを取るかを先に決める
- 精度の要件: どの程度の精度が必要か(90%か、方向性が合えばOKか)
ポイント: 予測の目的が曖昧だと、モデルを作っても「で、何に使うの?」となる。アクションに直結する目的変数を選ぶことが最重要。
予測に使えるデータ(説明変数)を集め、分析可能な状態に整える。
- データソースの特定: 社内DB、CRM、Webログ、外部データなど
- 特徴量の設計: 目的変数に影響しそうな変数を洗い出す(例: 過去の購買頻度、直近のアクセス回数、季節性)
- データクレンジング: 欠損値の補完、外れ値の処理、データ型の統一
ポイント: 「ゴミを入れればゴミが出る(Garbage In, Garbage Out)」。データの質が予測精度の8割を決める。
適切なアルゴリズムを選び、モデルの精度を検証する。
- アルゴリズムの選択: 回帰分析(数値予測)、ロジスティック回帰(分類)、決定木、ランダムフォレストなど
- 学習データとテストデータの分割: データの70〜80%で学習し、残りで検証する
- 精度指標の確認: RMSE(回帰の誤差)、AUC(分類の精度)、適合率・再現率など
ポイント: 高精度なモデルが必ずしも良いモデルではない。過学習(訓練データだけに適合し、未知のデータで外す)に注意する。
モデルの出力をビジネスプロセスに実装し、継続的に運用する。
- アクションルールの設定: 離脱確率70%以上の顧客にはリテンション施策を実施、など
- モニタリング: 予測精度が時間とともに劣化していないか定期的にチェック
- 再学習: 新しいデータが蓄積されたらモデルを更新する
ポイント: 予測モデルは作って終わりではない。環境変化に合わせて定期的にメンテナンスすることで精度を維持できる。
具体例#
状況: 月間解約率5%のBtoB SaaS企業。顧客数2,000社、ARR(年間経常収益)4億円。解約しそうな顧客を事前に特定してフォローアップしたい。
データ準備:
- 目的変数: 翌月に解約するか(1/0)
- 説明変数: ログイン頻度、機能利用率、問い合わせ回数、契約月数、プラン種別、直近NPS
- 過去12ヶ月分の顧客データ(約8,000件)を抽出
モデル構築:
- ランダムフォレストで分類モデルを構築
- AUC: 0.85(十分な実用精度)
- 重要な特徴量: ログイン頻度の減少、機能利用率の低下、問い合わせ回数の急増
運用:
- 毎週月曜に離脱確率スコアを算出
- 上位50社にカスタマーサクセスチームが優先フォロー
解約率は5%→3.2%に改善。年間で約7,200万円の売上維持効果を達成した。「なぜ解約するのか」の洞察は、プロダクト改善にも活用できた。
状況: 月商1.2億円のアパレルEC。SKU数3,000点。在庫の過剰と欠品が常態化し、年間の廃棄ロスが約2,800万円。
予測モデル:
- 目的変数: SKU別の週次販売数量
- 説明変数: 過去の販売実績、季節指数、気温データ、SNSトレンドスコア、セール予定、カテゴリ別成長率
- LightGBMで回帰モデルを構築、MAPE(平均絶対パーセント誤差)18%
運用:
- 毎週月曜にSKU別の2週間先販売予測を自動生成
- 予測値に基づいて発注量を自動計算し、バイヤーが最終確認
在庫回転率は年4.2回→6.8回に改善。廃棄ロスは2,800万円→950万円(65%削減)。予測モデルのROIは初年度で投資額の5.2倍に達した。
状況: 300床の地方中核病院。病床稼働率が75〜95%と変動が大きく、スタッフのシフト計画が困難。
予測モデル:
- 目的変数: 翌週の日別入院患者数
- 説明変数: 曜日パターン、季節(インフルエンザシーズン等)、前週の救急搬送数、外来患者数、近隣イベント
- Prophet(Meta社製)で時系列予測、MAE(平均絶対誤差)8.2人
運用:
- 毎週金曜に翌週の日別患者数を予測し、看護師長に共有
- 予測が85%以上の日は応援スタッフを事前に手配
緊急の人員手配は月15回→4回に減少。時間外労働は月平均12時間→6時間に半減。では何がこの変化をもたらしたか。「翌週の患者数が見える」というシンプルな予測が、病院の運営を根本から変えた。
やりがちな失敗パターン#
- データ不足のまま高度なモデルを作ろうとする — サンプル数が少ないのに複雑なアルゴリズムを使うと過学習する。まずはシンプルな回帰分析から始め、データ量に見合ったモデルを選ぶ
- 予測結果をアクションに落とし込まない — 精度の高いモデルを作っても、それを使う業務プロセスがなければ意味がない。「予測→アクション→効果測定」のサイクルを最初から設計する
- モデルを作りっぱなしにする — 顧客行動や市場環境は変化する。半年前のモデルが今も正しいとは限らない。最低でも四半期に1回はモデルの精度を検証し、必要なら再学習する
- 目的変数の定義が曖昧なまま着手する — 「売上を予測したい」だけでは粒度が不明確。「SKU別の週次販売数量」のように、アクションに直結する粒度まで定義することが成功の鍵
まとめ#
予測分析は、過去のデータから将来を見通し、先手を打つ意思決定を可能にするフレームワーク。目的変数の定義、データ整備、モデル構築、運用の4ステップで実践できる。重要なのは「精度の高いモデルを作ること」ではなく「予測をアクションにつなげること」。まずは自社の最重要KPIを1つ選び、その予測から始めてみよう。