音声インターフェースを設計したいときはどうすればいい？

「音声UIデザイン」フレームワークが役立ちます。音声による対話インターフェースを設計し、自然で使いやすいボイス体験を構築する手法

ボイスUXを改善したいときはどうすればいい？

「音声UIデザイン」フレームワークが役立ちます。音声による対話インターフェースを設計し、自然で使いやすいボイス体験を構築する手法

音声UIデザイン

ひとことで言うと
#

「画面を使わず、声だけでユーザーとシステムがやりとりする体験を設計する手法」。GUIでは「目で見て手で操作する」のに対し、VUI（Voice User Interface）では「耳で聞いて声で操作する」。画面がない分、会話の流れを自然に設計することが成功の鍵。

押さえておきたい用語
#

押さえておきたい用語

VUI（Voice User Interface）: 音声で操作するユーザーインターフェースのこと。スマートスピーカーやカーナビの音声操作など、画面なしで対話するUIの総称。
プロンプト: システムがユーザーに対して**話しかけるセリフ（発話文）**のこと。「何名でご予約しますか？」のように、次のアクションを促す。
ユッテランス（Utterance）: ユーザーが発する音声入力のバリエーションを指す。「明日の天気」「明日天気どう？」「明日雨降る？」など、同じ意図の異なる言い回し。
ウィザード・オブ・オズ法: システムの代わりに人間が裏で応答するテスト手法のこと。プロトタイプを開発する前に対話フローの問題点を発見できる。
ハッピーパス: ユーザーが想定通りにスムーズに操作を完了する理想的な流れである。まずこの正常系を設計し、その後にエッジケースやエラー処理を追加する。

音声UIデザインの全体像
#

音声UIデザイン：4フェーズの設計プロセス

音声UIデザインの進め方フロー

適性判断

音声が最適なユースケースか見極める

→

対話フロー設計

ハッピーパスとエラー処理を設計

→

プロンプト作成

自然な話し言葉でセリフを書く

→

★

テスト・改善

実ユーザーの発話パターンで繰り返し改善

こんな悩みに効く
#

スマートスピーカー向けのスキルを開発したいが、対話の設計方法がわからない
既存のIVR（電話の自動音声応答）がわかりにくいと苦情が来ている
料理中や運転中など、ハンズフリーで操作できるインターフェースを作りたい

基本の使い方
#

ステップ1: 音声が最適なユースケースかを見極める

まず、音声UIが本当に適切な解決策かどうかを判断する。

音声UIが向いているケース:

手がふさがっている（料理中、運転中、作業中）
操作が単純で、短いやりとりで完結する
画面を見る必要がない、または見られない状況
自然言語での入力が直感的（検索、質問、命令）

音声UIが向かないケース:

複雑な選択肢から1つを選ぶ（メニューが多い場合）
視覚的な比較が必要（商品の比較、地図の確認）
プライバシーが必要な操作（公共の場での個人情報入力）
長い文章の入出力

ポイント: 「画面でやったほうが早い」ことを音声に置き換えても、使いにくくなるだけ。

ステップ2: 対話フローを設計する

ユーザーとシステムの会話のシナリオを設計する。

設計の手順:

ハッピーパス: 理想的な会話の流れを書く
エッジケース: ユーザーが想定外の発言をした場合の対応
エラー処理: 認識できなかった場合の聞き返し方
コンテキスト管理: 会話の文脈を維持する方法

対話設計のルール:

1ターンの情報量を絞る: 一度に3つ以上の選択肢を提示しない
確認を入れる: 重要な操作の前に確認を挟む（「◯◯でよろしいですか？」）
エスケープを用意する: いつでも「キャンセル」「最初から」で戻れるようにする
プログレッシブ・ディスクロージャー: 最初は簡潔に、詳細が必要なら掘り下げる

ステップ3: プロンプト（発話文）を書く

システムが話すセリフ（プロンプト）を自然な日本語で作成する。

プロンプトの原則:

短く: 1文は15〜20文字以内を目安に
明確に: 次にユーザーが何をすべきかわかるように
自然に: 書き言葉ではなく、話し言葉で書く
一貫性: システムの人格（トーン&マナー）を統一する

悪い例: 「現在、ご注文の確認画面に遷移しております。内容をご確認の上、確定ボタンを選択してください。」良い例: 「ご注文の内容を確認します。コーヒー2杯で合計600円です。注文してよろしいですか？」

ポイント: 書いたプロンプトは必ず声に出して読む。目で読んで自然でも、耳で聞くと不自然なことがある。

ステップ4: テストと改善を繰り返す

実際のユーザーに使ってもらい、対話の問題点を発見・修正する。

テスト方法:

ウィザード・オブ・オズ法: システムの代わりに人間が応答し、対話の流れを検証
実機テスト: プロトタイプを実機で動かし、音声認識の精度も含めて検証
ログ分析: 実際の利用ログから、離脱ポイントやエラー発生箇所を特定

改善のポイント:

ユーザーがどんな言い方をするかのバリエーション（ユッテランス）を追加する
エラーが頻発する箇所のプロンプトを修正する
会話が長くなりすぎている箇所を短縮する

具体例
#

例1：レストラン予約ボイスアプリを設計する

状況: スマートスピーカー向けのレストラン予約アプリを開発。ターゲットは30〜50代の共働き世帯。「料理中に手を使わず予約したい」というニーズに応える。

対話フロー設計:

システム: 「レストラン予約へようこそ。何名でご予約しますか？」
ユーザー: 「2人で」
システム: 「2名ですね。いつのご予約ですか？」
ユーザー: 「明日の夜7時」
システム: 「明日、3月10日の19時で2名ですね。
           和食、洋食、中華など、ジャンルの希望はありますか？」
ユーザー: 「イタリアンがいいな」
システム: 「イタリアンですね。渋谷エリアで3件見つかりました。
           1つ目はトラットリア・ベラ、評価4.5。
           詳細を聞きますか？次に進みますか？」

エラー処理の設計:

エラー状況	対応
人数が聞き取れない	「すみません、何名でご予約ですか？」
2回連続で聞き取れない	「うまく聞き取れませんでした。1名、2名のように数字でお答えください」
3回連続で失敗	「申し訳ございません。ウェブサイトからのご予約もご利用いただけます」

テスト結果と改善:

「明日の晩」「明日のディナー」など、時間表現のバリエーションを20パターン追加
「とりあえずなんでもいい」への対応を追加（おすすめを提案するフローへ分岐）
店舗情報の読み上げが長すぎたため、最初は店名と評価のみに短縮

タスク完了率48%→82%。エラー処理の充実と時間表現のユッテランス追加が特に効いた。「とりあえずなんでもいい」への対応を追加するだけで離脱が減る。

例2：保険会社のIVR（自動音声応答）を改善する

状況: 年間120万件の電話を受ける大手保険会社。IVR経由の自己解決率が22%と低く、78%がオペレーターに転送されていた。1件あたりのオペレーター対応コストは850円。

Before（改善前のIVR）:

「お電話ありがとうございます。○○保険でございます。
 契約内容の確認は1を、保険金のご請求は2を、
 住所変更は3を、解約のご相談は4を、
 その他のお問い合わせは5を、もう一度聞くには9を押してください」

→ 選択肢が多すぎてユーザーが迷い、すぐに「0」（オペレーター直通）を押す

After（改善後のVUI）:

「○○保険です。今日はどのようなご用件ですか？
 たとえば『住所変更』『保険金の請求』などとお話しください」

→ 自然言語で用件を言える。音声認識で意図を判定し、適切なフローに振り分ける

指標	Before	After
IVR自己解決率	22%	58%
オペレーター転送率	78%	42%
年間コスト削減	—	約3.7億円（転送43万件減 × 850円）
顧客満足度	2.8/5.0	3.9/5.0

自己解決率22%→58%、年間コスト削減約3.7億円。「番号を押す」から「話しかける」に変えただけでこの差。顧客満足度も2.8→3.9に跳ね上がった。

例3：小規模クリニックが音声で予約受付を自動化する

状況: 医師1名・スタッフ3名の内科クリニック。1日平均40件の電話予約があり、スタッフの業務時間の35%を電話対応が占めていた。音声予約システムの導入を検討。

対話フロー設計:

システム: 「○○クリニックの予約受付です。
           診察の予約でよろしいですか？」
患者: 「はい」
システム: 「診察券をお持ちですか？」
患者: 「持っています」
システム: 「診察券番号を4桁でお知らせください」
患者: 「1234」
システム: 「田中太郎さまですね。ご希望の日時を教えてください」
患者: 「明日の午前中」
システム: 「明日の午前は10時30分と11時が空いています。
           どちらがよろしいですか？」
患者: 「10時半で」
システム: 「明日10時30分で予約しました。変更やキャンセルはいつでもお電話ください」

設計のポイント:

選択肢は常に2つまで（3つ以上は聞き取れない）
名前の確認で本人認証を兼ねる
「明日の午前」のような曖昧な表現にも対応
新患（診察券なし）の場合はオペレーターに転送するエスケープを用意

指標	導入前	導入3ヶ月後
電話対応にかかるスタッフ時間	1日2.8時間	1日0.9時間
予約の自動完了率	0%	68%
患者の待ち時間（電話がつながるまで）	平均3.2分	平均15秒
月間の電話料金	4.8万円	2.1万円

電話対応時間68%削減、初期投資120万円は8ヶ月で回収。浮いた時間を患者対応に回した結果、Google口コミ評価が3.6→4.1に。

やりがちな失敗パターン
#

画面UIの設計をそのまま音声に移植する — GUIのメニュー構造を音声で読み上げても使えない。音声ならではの対話の流れを一から設計する
エラー処理を後回しにする — 音声認識は完璧ではない。ユーザーが想定外の発言をすることは日常茶飯事。エラーハンドリングこそ最も重要な設計要素
一方的に情報を流す — システムが長々と話し続けると、ユーザーは内容を覚えられない。1ターンの情報量を最小限にし、ユーザーのペースで進められるようにする
声に出して検証しない — プロンプトを目で読んで「自然だ」と判断してしまう。必ず声に出して読み、耳で聞いたときの自然さを確認する。書き言葉と話し言葉は全く違う

まとめ
#

音声UIデザインは、声だけで自然にやりとりできる体験を設計する手法。画面がない制約を理解し、短く明確な対話フローを設計することが成功の鍵。まずは対話シナリオを紙に書き、声に出して読むことから始めよう。ユーザーテストで実際の発話パターンを収集し、繰り返し改善することで、使いやすいボイス体験が生まれる。

音声UIデザイン

ひとことで言うと#

押さえておきたい用語#

音声UIデザインの全体像#

こんな悩みに効く#

基本の使い方#

具体例#

やりがちな失敗パターン#

まとめ#