太陽がまぶしかったから

C'etait a cause du soleil.

メタバースと生成系AIが織りなす新たなDXとオレオレ詐欺は「低解像度」だから成立する

現代思想2022年9月号 特集=メタバース ―人工知能・仮想通貨・VTuber…進化する仮想空間の未来―

メタバースの目指す未来の袋小路

 レゾリューションはとてもシンプルで、2Dでも画質がよくなればよくなるほど、そこにいる感じがします。ゴールとして、「片目で4Kずつの解像度」が実現するとバーチャルとリアルの区別がつかなくなるといわれています。これはハードウェアのスペックが上がれば解決できる課題です。

 二つ目に重要になるレスポンス、これはZoomで会話がかぶったり、お互いが無言になってしまう、というアレです。これはリアルなコミュニケーションではあまりないですよね?

 これまでのメタバースに関する議論を振り返ると、画像や音声の解像度、立体感、そしてレスポンスの高速化によって「そこにいる感じ」が向上していくことによって空間的制約から解放されるという方向性の論調が優勢であった。しかしながら、そもそも重いゴーグルをかぶっている時点でそういう話ではないし、むしろ相対的に低解像度を許容するように人間の違和感側をアダプテーションさせてAI生成の画像や音声をインジェクションさせやすい状況にすることが重要なのではないかと思うことが増えた。

 メタバースそのものは現実世界に対するデジタルの代替空間であるため、現実世界と同じくらいの解像度や立体感やレスポンスが求められることも分かる。しかしながらアバター技術や生成系AIが進化していく中で、リモート会議、動画配信、ビジネスチャット、そして電話やメールなどの相対的に低解像度で即時レスポンスが求められない世界でこそアバターや生成系AIの恩恵を最大限に引き出せるアドバンテージが出てきたからである。

デジタル・トランスフォーメーションは「デジタルを変換する」

 生成系AIとは、人工知能がデータをもとに新しい情報を生成する技術である。例えば、文章や画像、音楽などを生成することができる。生成系AIは、大量のデータから特徴を学習し、それをもとに新しい情報を作り出す。そのため、生成系AIは、高解像度よりも低解像度のデータを扱う方が情報量が少なく、学習しやすい。また、低解像度のデータは、生成系AIが生成する新しい情報に対して、人間が違和感を感じにくいという特性がある。

 トラッキング技術と生成AIを組み合わせたディープフェイク・アバターはリモート会議システムがあくまで低解像度でレスポンスに難があることを織り込んでいるからこそ受け入れられうるものだ。これ自体は面白全部な使用例であるが、例えば金融や不動産の窓口業務において中年男性に対して若い女性が応対した際などに、実体としては目線を外しても動画上は合わせたままにしたり、必要に応じてフィラー動画に差し替えることでコミュニケーションの摩擦や感情労働を軽減するような使い道が考えられている。

 既存のデジタル・トランスフォーメーションは「デジタルに変換することで必要なものだけを選択的に瞬時に伝達すること」が重要な観点となっていた。暴力や口臭やウィルスを含んでいるかもしれない唾液を伝達しないで、コミュニケーションのみを伝達するということだ。しかしながら、デジタル・トランスフォーメーションは「デジタルに変換」するだけではなく「デジタルを変換する」こともでき、その成立条件としては「そこにいる感じ」があまりに強くなりすぎないことが求められる。

低解像度な世界で繰り広げられるオレオレ詐欺

 デジタル・トランスフォーメーションによる恩恵を最大化するためには低解像度のままであるべきという主張をしてきたが、それはオレオレ詐欺などを助長するリスクもある。オレオレ詐欺は、犯罪者が被害者の親族や知人になりすまし、金銭をだまし取る手法である。このような詐欺は生成系AIが最大限に活用できる低解像度の世界においてこそ低コストで騙しやすい環境になっている。

 例えば、これまでの詐欺メールは日本語に違和感を覚えることが障壁になっていたが、テキスト生成系AIによって違和感がなくなっていくし、音声合成AIによって電話で裏取りをすることすら難しくなった可能性が出てきている。

「2023年はディープフェイクを悪用するビジネスメール詐欺(Business Email Compromise、BEC)が増えるとみている。

(中略)

サイバー犯罪者たちの間で現在、BECの手法にディープフェイク音声を取り入れる動きが活発になっていると岡本氏は指摘する。BECの対策では「メールを送ってきた人は本当にその人か」を電話などで確かめることが求められるが、今後は役員や上司が振り込み指示を電話でしてきた場合も、十分に疑う必要がありそうだ。

 「電話相手も信じられない時代に」とあるが、電話という低解像度な音声だからこそ信じられない時代になっているのだ。AI生成音声もスピーカー音声を直接的に聴いたらさすがに違和感に気づくだろうが、電話やインターフォンを通すと許容できる低解像度化によって違和感が低減してしまう。我々は想像以上に「違和感」を信頼しており、それが突破されると弱い。

backspace.fmの会員制サービスであるBSMの専用Discordで音声チャットを始めたところ、声質については本人との区別がつかないと、ポジティブな感想が集まりました。

 日本語によるAIボイスチェンジャーの成りすまし実験もあったが、Discordという相対的に低解像度でノイズキャンセリングされることが前提の音声であれば区別がつかなくなってしまうところまで技術が進んでいる。この手の話は特別な技術者がやっているわけではなく、スクリプトキディですらできてしまうところに驚異がある。

低解像度の世界に甘んじる恩恵とリスクを見極めて

 低解像度の世界においては、アバターや生成系AI技術の恩恵を最大限に引き出せるアドバンテージが存在する。その一方で低解像度の世界がオレオレ詐欺などの新たな詐欺手口を助長するリスクもある。デジタル・トランスフォーメーションは、デジタルに変換するだけでなく、デジタルを変換することで問題を解決していくことも重要である。

 今のところは低解像度の世界に留まる恩恵とリスクを見極める状況であると考えているが、アバターや生成系AIの技術の側が進歩することでメタバース側も低解像度でラグがある世界に甘んじる必要もなくなってくるのかもしれない。まずは重いVRゴーグルをかぶるのではなくコンタクト型とかにならないと現実との違和感は消えないだろうけれども。