ウィザード・オブ・オズテスト

英語名 Wizard Of Oz Test
読み方 ウィザード・オブ・オズ・テスト
難易度
所要時間 1〜4週間
提唱者 リーンスタートアップ・プロダクト開発の実務慣行
目次

ひとことで言うと
#

ウィザード・オブ・オズテストは、ユーザーにはシステムが自動で動いているように見せながら、裏側を人手でオペレーションして需要を検証する手法です。開発コストをかけずに「そもそもユーザーはこの機能を使うのか」を確かめます。

用語の定義
#

押さえておきたい用語
  • フロントステージ(Front Stage):ユーザーに見える部分。UIやサービスの表面は本物と同じ体験を提供する
  • バックステージ(Back Stage):ユーザーから見えない裏側の処理。本来はシステムが行う部分を人手で対応する
  • コンシェルジュMVP(Concierge MVP):人力で価値提供すること自体をユーザーに開示する手法。WoZテストとは「裏側が人力であることをユーザーが知っているか」で区別される
  • フェイクドアテスト(Fake Door Test):まだ存在しない機能のボタンやリンクを設置し、クリック率で需要を測る手法
  • 学習目標(Learning Goal):テストを通じて検証したい仮説。「ユーザーはこの条件でこのアクションを取る」という形式で事前に定義する

全体像
#

ユーザー本物のサービスだと思って操作する行動データを記録フロントステージUIは本物と同等自動に見える体験プロトタイプ / LPバックステージ裏側は人力で対応システム未構築スプレッドシート等← カーテンの向こう側 →学習と判断需要あり → 本開発へ需要なし → 方向転換
仮説と学習目標
何を検証するか定義
フロントUI構築
見た目は本物同然
人力オペレーション
裏側を手動で処理
判断
Go / Pivot / Kill

こんな悩みに効く
#

  • 新機能のアイデアがあるが、開発に3か月かかると言われており、そもそも使われるか不安
  • ユーザーインタビューでは「欲しい」と言っていたが、実際にお金を払ってくれるか確信が持てない
  • AIレコメンドやマッチングなどのアルゴリズム開発前に、その体験自体に需要があるか試したい

基本の使い方
#

検証すべき仮説と成功基準を定義する
「ターゲットユーザーの30%がこの機能を週2回以上使う」など、定量的な成功基準を事前に決めます。仮説が曖昧だとテスト後に「結局どうだったのか」が判断できません。学習目標は1〜3個に絞ります。
フロントステージを最低限構築する
ユーザーが触れるUIだけを作ります。ノーコードツール(Figmaプロトタイプ、Webflow、Bubble等)で十分です。重要なのは「ユーザーが本物のサービスだと認識できるレベル」の体験を提供すること。裏側の処理は一切自動化しません。
バックステージを人手でオペレーションする
ユーザーのリクエストが来たら、裏側で人手で対応します。たとえばAIレコメンドの検証なら、ユーザーの入力を見て人間がおすすめを選び、あたかもアルゴリズムが出力したように返します。対応時間・内容・ユーザーの反応をすべて記録します。
データを基にGo/Pivot/Killを判断する
事前に設定した成功基準と実際のデータを突き合わせます。利用率・継続率・課金意向などの定量データと、ユーザーの発言・行動パターンの定性データを組み合わせて判断します。成功基準を満たせば本開発に進み、満たさなければ仮説を修正するか中止します。

具体例
#

人材マッチングサービスの検証
HR系スタートアップが「AIが求職者と企業をマッチングする」サービスのコンセプトを検証。LPとマッチング結果表示画面をWebflowで構築し、求職者にはプロフィール入力後「AIが最適な求人を選定中」と表示。実際にはCEO自身がスプレッドシートで求人を選び、3時間以内にメールで結果を返した。150人の求職者のうち**68%**がマッチング結果の求人に応募意向を示し、23%が実際に応募。事前基準(応募意向率40%以上)を大幅に超えたため、マッチングアルゴリズムの本開発に600万円の投資判断を実行した。
レストラン予約のパーソナライズ機能
グルメアプリ(MAU 80万人)が「好みに合った店を毎週3軒提案する」機能を検証。アプリ内に「おすすめ店舗」の通知枠を設置し、ベータユーザー500人に対して、過去の予約履歴を見たインターン3名が手動でレストランを選定。毎週月曜に提案を配信した。4週間のテストで、提案からの予約転換率が8.4%(通常の検索経由は2.1%)となり、ベータユーザーの週次リテンション率が12ポイント上昇。この結果を根拠にレコメンドエンジンの開発が承認され、人力運用で発見した「距離よりジャンルの一致が重要」という知見がアルゴリズム設計に活かされた。
中小企業向け経理自動化ツール
フィンテック企業が、領収書をアップロードすると自動で仕訳される「AI経理」の需要を検証。LPで月額9,800円のプランを掲示し、無料トライアルの申込を受付。トライアルユーザー42社が領収書をアップロードすると、裏側では経理経験者2名がSlack通知を受けて手動で仕訳を入力。平均処理時間は1件4分で、ユーザーには「処理完了」通知を30分以内に送った。トライアル後の有料転換率は31%(目標20%)、NPS調査で「仕訳精度」「処理速度」の満足度が高かった。人力オペレーションのコスト構造(1件4分)からOCR+仕訳ルールエンジンの開発ROIを逆算し、投資判断の精度が格段に上がった。

やりがちな失敗パターン
#

失敗原因対策
テスト規模が小さすぎて結論が出ない友人5人にだけ試して「ニーズあり」と判断した統計的に意味のあるサンプルサイズ(最低30〜50人)を確保し、成功基準を事前に定量化する
人力オペレーションが追いつかない想定以上にリクエストが来てレスポンスが遅れ、体験が劣化対応可能なキャパシティから逆算してテスト対象人数を制限し、SLAを事前に決める
フロント体験の質が低すぎる明らかに「テスト中」とわかるUIで、ユーザーが本気で使わないユーザーが本物のサービスだと認識できるレベルまでフロントの品質を上げる
学習目標を決めずにテストを始める「とりあえず試してみよう」で走り、何を学んだか曖昧なまま終わるテスト前に「何が確認できればGo判断を出すか」を書き出し、関係者と合意する

まとめ
#

ウィザード・オブ・オズテストの本質は「作る前に売れるか確かめる」という発想です。開発に数か月かかるシステムの裏側を人力で模擬するだけで、需要の有無を数週間で判断できます。テスト中に得られる「ユーザーが実際にどう使うか」の観察データは、その後の本開発における仕様策定の精度も大幅に高めてくれます。