なぜAIに「声」が必要なのか きっかけは映画の吹き替え
ElevenLabsは2022年に創業したスタートアップAI企業だ。設立から間もないが、大規模な資金調達で注目を集めた。最近では、半導体企業のNVIDIAなどが出資を発表している。共同創業者の一人でありCEOのMati Staniszewski氏は米国と英国のAI関連機関に参加しており、英国首相のAIアドバイザーを務めた経験を持つという。
今年のはじめに、同社は初の海外拠点を東京に設立。NTTドコモ・ベンチャーズなどとの協業を強めており、日本市場への展開に注力している様子がうかがえる。
11月18日、Mati Staniszewski氏が来日し記者向けの説明会を開いた。同氏によれば、日本向けにセールスチームやエンジニアを投入し、日本語に特化したAIモデルを作っているとのことだ。
同社のプロダクトの原点はTTS(Text-to-Speech)、いわゆるテキスト読み上げのAIモデル。「コンテキストを理解してイントネーションや感情を表現する点を重視した」とStaniszewski氏は解説する。実在の人物の声でテキストを読み上げることも可能だという。実際に生成された音声を聞いてみると、本人が話していると勘違いしてもおかしくないクオリティだ。
加えて、STT(Speech-to-Text)と呼ばれる音声認識のモデルもあり、これらを組み合わせることで人間らしい声を再現したAI吹き替えも可能となる。さらに同社はボイスクローニングモデルも構築。これにより、人の話し方、アクセントなどを細かく再現できる。
重要なのは、こうしたモデルを組み合わせてより良いモデルを生み出すことだ。たとえば、TTSやSTTなどを大規模言語モデル(LLM)と連携して動かすことで、我々が会話しているようなインタラクティブなコミュニケーションを、AIエージェントとも行える。
同社が開発しているAIモデルから、Staniszewski氏がどれだけ「人の声」にフォーカスしているかわかるだろう。AI音声で創業した理由を、同氏は「映画の吹き替えにある」と語る。
「私はポーランド出身だが、ポーランドでは海外映画の吹き替えを男女問わず一人の人物によって行うケースが多かった。想像したらわかるように、全登場人物に対して一つの声しかないというのはひどい体験だ。この体験が起業のきっかけとなった」
この課題は、何も吹き替えだけに限らない。同社はテクノロジーとのやり取りでも「声」が重要だと考えている。Staniszewski氏は「何よりAIエージェントに命を吹き込むべきだ」と強調した。
同社の技術を活用すれば、たとえば顧客からの問い合わせに対応するAIエージェントの開発も可能だ。平坦な音声ではなく、感情が感じられたりリアルなイントネーションの変化がわかるようになったりする。あるイタリアの不動産マーケットプレイスでは、売り手と買い手がマッチングする前段階に「音声エージェント」を導入したところ、良質なリードの創出につながった。ElevenLabsはAIエージェントを作成するプラットフォームも展開しており、日本ではTBSグループやニッポン放送、大阪ガスらで採用が進んでいる。
このように活用が進む一方、AI音声を扱う上で話題に上がりがちなのがディープフェイクといった「倫理」の問題だろう。ElevenLabsがどう対応しているのかは注目すべき点だ。
