- 2026-2-22
- ChatGPT
こんにちは、中西です。
AI で実在する人間の映像や声を自由に作れる時代になってきました。
先日も公認会計士で千代田区議のさとうさおりさんが、本人が話しているように見える映像を勝手に作られ、
YouTubeでその動画を見た多くの人が本人だと信じてしまい、ご本人が通報を訴えておられました。
私は本人が通報を訴える前にたまたまその動画を一部見たのですが、AIの可能性を疑いながらも、正直本人かAIか、自信を持って判別できませんでした。
少しまでは映像にしろ声にしろ、AIの場合は若干の違和感があり、勘のいい人なら割と早い段階でAI だと気づくことができました。
ただ最近はその「若干の違和感」すら無くなりつつあります。
一昨日にも自分の声を3秒話すだけでできるAIを紹介する動画を見たのですが、想像を超えておりました。
これまではできる AI を作る際、1000個ぐらいの単語を読み上げないといけなかったようなのですが、
今やわずか3秒の声を入力するだけで、自分の話し声が再現できるようになっているようです。
▼参考動画:【無料】「3秒で声をコピーできるAI」が完全に一線超えた【Qwen3-TTS】
上の動画ではその AI ツールで声を作成する実演をされていて、3秒でもいいのですが、より自然にするために20秒ほどAI に自分の声を入力しています。
その後出来上がった声・話し方が、動画の投稿主の方の声とほとんど区別がつきません。
声質だけ同じで話し方やトーンが違うならまだわかりますが、声質だけでなく話し方もほとんど区別がつきません。
多分言われなければ、誰も見分けがつかないぐらいのレベルだと思います。
声を使って配信している配信者の人なら、これを使うことで自分が話さなくても自分が話した時と同じ形になるので、ありがたいかもしれません。
しかしそれ以外の人にとっては、どういうメリットがあるのか私にはまだピンと来ません。
どちらかというと悪い方向に使われるイメージの方が強いですね。
最近はもう会話のキャッチボールも、その瞬発さが人間と変わらないレベルになってきましたので、
自分のデータを読み込ませれば、通話であればほぼ本人と同レベルの対応ができるはずです。
私ならコーチングのデータや会話音声を読み込ませ、コーチングのパターンなどもプロンプトに入れておけば、
ほぼ私と同じAIコーチがコーチングを出来る状況になったと思います(やりませんが物理的には可能)
以前はどちらかというと、YouTubeなどを見ても映像はほとんどリアルと見分けがつかなくなったのに、声だけはどうしても不自然さが残っていました。
そういう映像を見た時に
「AI はさすがに声を自然にするのはまだ無理なんだろう」
「声を自然な話し方にするには、相当時間がかかりそう」
などと思っていましたが、あっという間に声や話し方が自然になり、
そのデータベースもわずか20秒で済むほどになりました。
おそらく当面はこの技術で得られるメリットよりも、さとうさんのように配信者・著名人らが声をパクられるなど、悪い方向で使われるような気がしております。
AI で作られた声のクオリティがここまで人間(本人)と変わらない状況になっていることを理解していないと、
悪い人に騙されるリスクが非常に上がっていると思います。


感謝!YouTube動画が500万再生を突破!







