LLMの「ロボット版」が動き始めた理由

ロボットにコーヒーを注がせることは、ロボットに文章を書かせることよりも難しい。この一見逆説的な事実が、いまフィジカルAIの研究開発の課題となっている。
言語AIの世界ではGPT-4やClaude、Geminiといったモデルが人間と遜色のない文章を生成し、法律文書の解析や医療診断の補助まで担うようになった。しかし、同じ「AI」の名を持つロボットが、コンビニの棚に商品を並べたり、ケーブルを正確に挿入したりする作業をこなせるようになったのはごく最近のことで、しかも完成度はまだ産業実用の入口付近にとどまる。
2026年5月、その課題に挑むロボット基盤モデルが日本に上陸した。韓国発のフィジカルAI企業RLWRLD(リアルワールド)が発表会を開き、独自の「Robotics Foundation Model(ロボティクス基盤モデル、RFM)」であるRLDX-1(リアルデックス)を日本初公開した。
大規模言語モデル(LLM)が急速に進化した背景には、インターネット上の膨大なテキストデータと「スケーリング則」の発見があった。データ量とモデル規模を増やすほど性能が向上するという経験則が成立したことで、投資と研究が一気に加速した。
ロボット分野でも、同様の転換点が近づいているとみられている。Google DeepMindが主導した「Open X-Embodiment(OXE)」プロジェクトは、22種類の異なるロボットから集めた約240万エピソードの動作データを公開。ロボット版の「共有データセット」として機能し始めた。公開データは2026年時点で100万エピソードを超え、「3〜4年前のLLMと同じ段階に来ている」との見立てが研究者の間で広まっている。
この潮流に呼応するように、2024〜2026年にかけてロボット向けの基盤モデルが相次いで登場した。Physical Intelligence(米国)のπ0(パイゼロ)、NVIDIAのGR00T N1、Google DeepMindのGemini Roboticsがその代表格で、いずれも従来の「タスク専用のロボット制御プログラム」とは根本的に異なる設計思想を持つ。
VLAとは何か 「脳と運動神経」の統合
これらのモデルが共通して採用しているのが、VLA(Vision-Language-Action:視覚・言語・行動統合モデル)というアーキテクチャだ。
仕組みを平たく言えば、VLAは「VLM(Vision-Language Model:視覚言語モデル)という汎用の脳に、アクションヘッドという運動神経を接続したもの」だ。GPT-4VやGeminiのように画像とテキストを理解するVLMを土台とし、その推論結果をロボットの関節角度や速度といった制御信号に変換するアクションヘッドを付加することで、「命令を理解し、実行する」ロボットの頭脳が成立する。
たとえば「このリンゴを取って棚に置いてください」という音声命令をVLAが受け取ると、VLMが映像と言語を統合してプランニングを行い、アクションヘッドがそれをローレベルの制御信号に変換してロボットアームを動かす。理論上は、同一のモデルが工場ラインでの部品組み立てから介護施設での補助作業まで、汎用的にこなせる可能性を持つ。
このパラダイムを開拓したのは、Google DeepMindが2023年中頃に発表したRT-2だった。以来、モデルの汎化性能と動作精度は急速に向上しており、NVIDIAが2025年3月に公開したGR00T N1は「System 1(反射的な高速制御)とSystem 2(VLMベースの計画立案)」という人間の認知の二重構造をアーキテクチャに反映させ、複数のヒューマノイドメーカーが採用を表明した。
Physical Intelligenceのπ0は、8種類の異なるロボットプラットフォームで学習した汎用モデルとして2024年秋に登場し、翌年にはモデルの重みとコードをオープンソースとして公開。ロボット基盤モデルの「共有インフラ」化を促す動きとなった。
