- ディープフェイク音声とは、生成AIで本人の声を模倣し、家族・上司・取引先の声を装って電話で送金や情報提供を要求する音声なりすまし詐欺のことだ。
- SNSに上がっている数秒の音声から本人の声を再現できるため、「娘が誘拐された」と泣き叫ぶ偽の声や「至急振り込め」と指示する偽の上司の声で、正しい判断より先に感情で動かされてしまう。
- 仕組みを知っておけば、家族間の合言葉設定や折り返し電話で本人確認という対策が打て、AI音声による振り込め詐欺の進化型を防げる。
【深掘り】これだけは知っておけ
ディープフェイク音声(AIボイスクローニング)は、生成AI技術で本人の声を学習し、任意の内容を本人の声で話させる技術を悪用した詐欺です。マイクロソフトが2023年に発表したVALL-Eは3秒の音声サンプルから声のトーン・感情・録音環境までを再現できるとされ、その後継のVALL-E 2(2024年)はさらに精度が向上しています。OSS実装のVALL-E Xは日本語にも対応しています。米連邦取引委員会(FTC)の2025年データでは、なりすまし詐欺(Imposter Scam)が約100万件・損失35億ドル超に達し、米国で最も多く報告された詐欺類型となりました。2026年5月にはCNBCがモンタナ州の女性が娘の声を完全模倣された誘拐詐欺の標的になった事例を報じています。
典型的な手口は二つに分かれます。一つ目は「家族緊急詐欺」で、子供や配偶者の声を模倣して「誘拐された」「事故を起こした」「至急お金が必要」と泣き叫ぶ偽電話を親や祖父母にかける手口です。日本のオレオレ詐欺がAI音声で進化した形と言えます。二つ目は「ビジネスメール詐欺の音声版(BEC音声化)」で、上司・CEO・取引先の声を模倣して経理担当者に「至急振り込み処理して」と指示する手口です。Google Cloudの脅威インテリジェンスは、音声クローニングとディープフェイクを使ってある組織から2億香港ドル以上を盗んだ事例を報告しています。
対策の基本は三つです。一つ目は電話を切って公式の連絡先から折り返すこと。本物の家族・上司なら登録済みの番号で連絡が取れます。攻撃者は折り返しを嫌い、「今は電話に出られない」と言い訳します。二つ目はビデオ通話への切り替えを要求すること。音声クローニングよりも顔と表情の同期は技術的に難しく、リアルタイムでは破綻しやすいです。三つ目はSNSへの音声・動画投稿を意識的に減らすこと。攻撃者は素材を集めることから始めます。職場では稟議・複数承認・コードワードによるソース検証など、組織的な対策が必要です。
ディープフェイク音声詐欺の主な型
| 型 | 偽装される人物 | 典型的な要求 |
|---|---|---|
| 家族緊急詐欺 | 子供・配偶者・孫 | 「事故・誘拐された」緊急送金 |
| ビジネスメール詐欺(音声化) | CEO・上司・取引先 | 「至急振込処理」緊急指示 |
| 政治・公人なりすまし | 大統領・政治家 | 選挙妨害・偽指示の拡散 |
典型的なフレーズ・文脈

(娘の声を完全模倣)お母さん!助けて、事故起こしちゃった!相手の人に賠償金を今すぐ用意しないと警察沙汰に。100万円、すぐ振り込んで!口座番号は今からSMSで送る、絶対に折り返ししないで時間がない!
家族の声を完全模倣して泣き叫ぶ「家族緊急詐欺」の典型的な手口です。折り返し電話を嫌うことと、感情で判断させる急かしが共通の特徴です。

米連邦取引委員会は2025年に報告されたなりすまし詐欺が約100万件・損失35億ドル超に達したと発表し、AI音声クローニングを使った家族緊急詐欺やビジネスメール詐欺の音声版が急増しているとして警戒を呼びかけています。
米FTCのなりすまし詐欺被害の規模を報じる報道番組のキャスターを想定した表現です。

家族で合言葉を決めてください。緊急電話で合言葉を確認、答えられなければ詐欺です。必ず登録番号から折り返しを。職場では振込指示は別経路で確認を。被害は#9110へ。
詐欺対策専門家が、ディープフェイク音声詐欺への家族合言葉や折り返し確認の重要性を助言する場面を想定しています。
困ったときの相談窓口
ディープフェイク音声を使った詐欺の被害や疑いがある場合は、以下の窓口に相談してください。
| 窓口名 | 電話番号 | 受付時間 | 対応内容 |
|---|---|---|---|
| 警察相談専用電話 | #9110 | 平日 8:30〜17:15(各都道府県で異なる) | 詐欺被害・なりすましの相談 |
| 消費者ホットライン | 188 | 地域の窓口に準ずる | 振り込め詐欺・悪質商法の相談 |
| IPA安心相談窓口 | 03-5978-7509 | 平日 10:00〜12:00、13:30〜17:00 | サイバー犯罪・AI悪用の相談 |
【まとめ】3つのポイント
- 正体は生成AIによる声の模倣詐欺:3秒の音声から本人の声を再現でき、家族や上司の声でなりすまされます。
- 2025年に米国で35億ドル超の被害:なりすまし詐欺がAI技術で爆発的に拡大しています。
- 家族合言葉と折り返し電話で防御:「声を聞いたから本人」という前提は通用しません。別経路での確認を必ず実施しましょう。
よくある質問
-
Qどれくらいの音声があれば声を複製されますか?
-
A
マイクロソフトが2023年に発表したVALL-Eというモデルは、わずか3秒の音声サンプルから声を再現できるとされています。実際の詐欺では数十秒〜数分のサンプルが使われることが多く、これはSNS動画・YouTube・電話の録音から容易に取得可能です。「自分の声はネットに上げていないから安全」という油断は禁物で、家族や知人が公開している動画にあなたの声が含まれていれば、それも素材になります。
-
Q本物の声かAIか聞き分ける方法はありますか?
-
A
耳での判別は極めて困難です。最新のAI音声は本人の声色・トーン・感情まで再現できるため、聞き分けは現実的ではありません。代わりに技術的でない方法で確認してください。一つ目は事前に家族で決めた合言葉を聞く。二つ目は「最近の家族イベント」など事前準備ができない質問をする。三つ目は電話を切って登録済みの番号から折り返す。これらは「AIが知り得ない情報」を活用する確認方法で、極めて有効です。
-
Q職場でディープフェイク音声詐欺を防ぐ方法は?
-
A
業務ルールの整備が最も重要です。一つ目は「電話一本での振込指示は必ず別経路(メール・チャット・対面)で再確認」というルールを徹底すること。二つ目は緊急性を装った要求への懐疑を組織文化として持つこと。三つ目は経理担当者向けのなりすまし詐欺研修を定期的に実施すること。MandiantのレッドチームはAI音声を使って組織の防御態勢をテストしており、コードワードのようなソース検証が有効と報告しています。
-
Qディープフェイク音声とビッシングの違いは何ですか?
-
A
ビッシングは音声フィッシングの総称で、電話を使って情報や金銭をだまし取る詐欺全般を指します。ディープフェイク音声詐欺はビッシングの進化形で、生成AIで本人の声を完全模倣することで「知らない番号からの電話」ではなく「家族や上司を装う電話」を実現します。ビッシングが「知らない人を信じてしまう」詐欺だとすれば、ディープフェイク音声は「知っている人だと完全に信じてしまう」詐欺で、防御の難易度が格段に上がっています。


コメント