音声対話AIスタートアップ・Verbexが、日本市場での本格展開を開始している。独自開発のSTT(音声認識)・TTS(音声合成)・LLM(大規模言語モデル)を組み合わせた音声AIプラットフォームを武器に、ENEOSホールディングスやテレビ東京ダイレクト等との実証実験を相次いで進め、大手企業の開拓を着実に進める。2017年にバングラデシュで創業された同社は、なぜ音声AIに着目したのか。競合との差別化をどこに置き、今後の市場をどう見通すのか。CEO・森下将憲氏に話を聞いた。
コールセンターの「ストレス」をブリッジする音声AI
Verbexが音声AIに注力する背景には、コールセンターが抱える構造的な課題がある。ユーザーは長時間の待機を強いられ、オペレーターはカスハラや意味のないアウトバウンドコールに疲弊している。森下氏は「コールセンターはユーザー側にとっても、オペレーター側にとっても、今やストレスの塊になっている」と指摘する。
同社はこの両者をブリッジする役割を担おうとしている。現在1分100円で提供しているサービスは、5年後には1分10〜20円の水準に下がると森下氏は見通す。時給換算で600円程度、つまり人間よりも明らかに安い水準になれば、全業務をAIに切り替える動きが一気に進むという。
Verbexの創業は2017年、バングラデシュでZubi氏が立ち上げた。当時の同国の識字率は75%程度で、請求書のやりとりも電話で行われていた。音声AIのニーズが明確に存在する市場だった。機械学習ベースで開発を続け、2022年のLLM登場で精度が一気に向上した。
森下氏は2018年に株式会社EverforthをWingArcへ売却したのち、かねてより交流があったZubi氏が創業したVerbexを年に1度訪問してアドバイスなどを行っていた。一昨年に現地を訪問した際に英語版の完成度を目の当たりにして「これは絶対にいける」と確信。昨年から日本語モデルの開発を本格化し、夏にリリースした。ENEOSホールディングスやテレビ東京ダイレクト、三次市などPoCも開始。日本市場の開拓は昨年4月頃から動き始め、「あっという間にここまで来た」と言う。
競合との差別化──モデルを自社で持つ意味
──多くの音声AIサービスがある中で、Verbexの強みはどこにありますか。
森下 最大の差別化は、STT・TTSのモデルを自社で開発・保有していることです。多くの競合はChatGPTやGeminiに依存していますが、我々はモデル自体をゼロから作っている。
これによって、住所や氏名、数字といった情報の認識・発話精度を特化してトレーニングできます。ChatGPTやGeminiはこの部分が弱い。我々はユースケースに応じてカスタムトレーニングが可能です。このレベルでモデルを自社開発できる日本の会社は、ごく少数しかありません。
さらに、モデルを自社で持っているからライセンス料を払わなくてよい。コスト面でも大きな優位性です。加えて、究極的にはオンプレミスにも対応できます。金融機関など、セキュリティ・ガバナンス上の要件でクラウドが使えない企業へのアプローチも可能です。
競合との直接的なコンペはほぼゼロに近い状態だという。同社が大手企業・大規模コールセンターにフォーカスしているのに対し、他の音声系スタートアップはまだ中小企業向けの対応や、プロダクトの精度向上に注力している段階だと森下氏は見る。ENEOSホールディングスのようなケースでは、PoCの開始まで準備期間が1ヵ月程度で済んでいる。このスピード感がそのまま競争優位になっている。
市場はどう変わるか──2.5兆円市場とAIの浸透シナリオ
日本のコールセンター市場は、インハウスも含めて約2.5兆円規模とされる。その大半が人件費だ。一方でコールセンターは慢性的な人手不足に悩んでおり、採用が難しい。森下氏は2.5兆円のうち半分程度は5〜10年の間にAIに置き換わると見通す。ただし人間が完全になくなるわけではない。優秀な人材は残り、いわゆる「こなし仕事」をしていた層がなくなる形になるという。
コールセンター以外にも、リアルの受付窓口やアウトバウンドコールなど音声が関わる業務全体をAI化した場合、5年後には対象市場が2兆円規模になる。コスト削減効果を50〜70%と見れば、5,000億円規模の市場が開けてくる。森下氏は「5年後に1,000億円規模の売上を実現することは、決して非現実的ではない」と語る。
──音声AIの今後の普及速度についてはどう見ていますか。
森下 日本企業は保守的ですが、変わる可能性は十分にある。5年後に20%の業務がAI化されるという想定で話していますが、40%になる可能性もあれば5%で止まる可能性もある。ボラティリティが大きい領域です。
長期的に見ると、音声入力はもはや当たり前になっていきます。現在の40代後半〜50代の方々は、本来は話した方が楽なことを今でもキーボードで入力している。しかし現在の中学・高校生世代は、スマホに向かって話しかけることを当たり前にしている。その世代が10年後に社会人になれば、業務上の指示も音声が主流になる。その時に我々の市場はさらに一気に拡大すると見ています。
AIコモディティ化後の生き残り戦略──「電力×AI×人間」という構造
──AI全体がコモディティ化していく中で、音声AIスタートアップが生き残るための戦略をどう考えていますか。
森下 AIはコモディティ化します。これは当社自身についても同様です。プロダクト自体の価値はなくなる。3年後には、アプリケーションやSaaSの価値はほぼゼロになると思っています。
そうなると、生き残るために必要なのは「アカウントの開拓」と「優秀な人材の確保」の2つだけです。エンジニアの価値も下がり、プロダクトの価値もなくなる。残るのはセールス・関係構築の部分と、AIモデルそのものです。
私は「電力×AI×人間しか価値がなくなる」と表現しています。電力はAIを動かすインフラ、AIはモデル開発、そして人間はリレーションシップとソリューション設計。この3つの組み合わせが、3年後の価値の本体になる。
同社が目指すのは、コンパクトで強いSIer(システムインテグレーター)に近い形だ。ユースケースごとの課題を深く理解し、どうエージェントを設計するかのノウハウを蓄積する。そのソリューションパッケージと、それに対応できる優秀な人材が3年後の競争力の源泉になると森下氏は見る。Palantir(パランティア)のビジネスモデルが最近よく言及されるが、プロダクトを売るよりも全体のサービスを売る形に近い。同社もSaaSであり、同時にサービスでもあるという立て付けで考えている。
グローバル本社を現在のシンガポールから日本に移すことを今年中に検討している。日本はVerbexにとって最重要市場だ。英語市場はレッドオーシャンなので、むしろ日本語をはじめ、フィリピン、バングラデシュ、インドなどのローカル言語に注力していく。これらの言語は同社が特許を保有している領域でもある。25カ国56件の特許を持ち、他社が簡単には参入できないポジションを確立している。
事業の出口については、IPO(株式公開)よりも大手テクノロジー企業への売却を優先的に考えているという。独自モデルを持ち、マイナー言語に特化できる集団はグローバルでも希少だ。Big Techにとって、同社のモデルは非常に価値があるはずだと森下氏は見る。
──「声で世界をつなぐ」というミッションに込めた思いを最後に聞かせてください。
森下 世界はすべて人間のUI(ユーザーインターフェース)に合わせて設計されています。棚の高さも、冷蔵庫のハンドルも、パワーポイントも、電話での会話も、すべてが人間向けに設計されている。だから最終的にコミュニケーションの場面では、人間でなければできないことが必ず残ります。
私が15年前に最初の会社を作ったときのテーマは「好きなことができる世界を作る」というものでした。AIが来れば、人間は好きなことだけをやればいい。それが仕事ならば仕事をすればいい。その世界が思ったより早く来ています。Verbexの音声AIが、その移行を支えるインフラになる──それが私たちのビジョンです。
この記事は参考になりましたか?
- この記事の著者
-
京部康男(AIdiver編集部)(キョウベヤスオ)
ライター兼エディター。翔泳社EnterpriseZineとAIdiverには業務委託として関わる。翔泳社在籍時には各種イベントの立ち上げやメディア、書籍、イベントに関わってきた。現在はフリーランスとして、エンタープライズIT、行政情報IT関連、企業のWeb記事作成、企業出版支援などを行う。Mail ...
※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です
