避けられない「声の盗用」問題 倫理の壁をどう乗り越える?
生成AIの進化によって、著名人の声を利用したコンテンツが容易に生み出せるようになった。場合によっては「声を生業としている人々の仕事を奪うのではないか」との懸念もある。アニメーション人気から声優の存在感が強い日本では、関心が高い消費者が特に多いはずだ。著名人の声をいかに守りながら活用するかという課題は、ElevenLabsの事業領域において避けて通れない。
これに対し、ElevenLabsが声の主の「同意」を重視することは過去にも取り上げられている。著名人の声のライセンスを申請することで広告利用などが可能なマーケットプレイスを運営しているが、申請内容の可否や利用条件について本人や権利保有者が審査・承認を行う流れだ。
ほかにも、同社はさまざまなタイプの声を集めたボイスライブラリを公開しており、ユーザーは声のコンテンツを共有するなどして収益化が可能となっている。Staniszewski氏は「ユーザー数は既に1万人以上。1,000万ドル相当を彼らに還元できる」と話す。こうした場も、安全性を確保した上で成り立っている。
具体的には、音声コンテンツが「いつどのように生成されたか」を追跡できる仕組みを取り入れた。また、業界団体との提携を進め悪用を防ぐ取り組みを加速している。
音声がすべての起点に 3つの未来予測
このような取り組みも含めてElevenLabsがAI音声市場をリードする存在だと自負するStaniszewski氏だが、今後の展開をどう見ているのか。同氏は、これから起こるであろう3つの変化を提示した。
1つ目が「音声がテクノロジーとの主要なインターフェースになる」という点だ。普段使っている電話、ノートパソコン、自動車でも「必ず声が起点になる」とStaniszewski氏。さまざまなデバイスが、人が「何を」「どのように」話しているか理解できる未来が待っているという。
2つ目は「言語の壁がなくなる」こと。AI音声によって誰とでもコミュニケーションが取れるようになる。具体的には、より人間らしいリアルタイム翻訳や吹き替えを活用できるというわけだ。本人の感情や自然なイントネーションを表現することができる。
そして3つ目が「統合」だ。Staniszewski氏は、ビジュアル・音声・テキストそれぞれの要素を網羅した「オムニ・クリエイティブ体験」の提供を目指す考えを示した。文脈を理解し感情に反応するAIエージェントが、あらゆるタッチポイントで一貫したコミュニケーションを実現するイメージだ。
現在、AIエージェントを導入し使いこなしている日系企業はそう多くない。しかし近い将来、「声×AIエージェント」が当たり前となるかもしれない。そうなったとき、自社のビジネスがどう変わるのか。各社が向き合うべき新たなトレンドだといえるだろう。
