AIdiver Press

「手を動かす知性」はなぜ難しいのか──RLWRLD（リアルワールド）が示すフィジカルAI基盤モデルの最前線

RLWRLD ロボティクス基盤モデル「RLDX-1」公開レポート

更新日: 2026/06/23
公開日: 2026/05/27

　韓国のフィジカルAI企業RLWRLD（リアルワールド）が2026年5月、日本初の発表会でロボティクス基盤モデル「RLDX-1」を公開した。言語AIの急速な進化の陰で、なぜロボットAIは遅れをとっていたのか。コーヒーを注ぐ、ケーブルを挿す──人間には無意識の「手の操作」が、フィジカルAIにとっての最後のフロンティアとなっている。会見では、器用さを起点に知能を構築する「Dexterity-First」アーキテクチャと、KDDIとの実装試験が示され、基盤モデル競争の新たな論点が浮かび上がった。

LLMの「ロボット版」が動き始めた理由

　ロボットにコーヒーを注がせることは、ロボットに文章を書かせることよりも難しい。この一見逆説的な事実が、いまフィジカルAIの研究開発の課題となっている。

　言語AIの世界ではGPT-4やClaude、Geminiといったモデルが人間と遜色のない文章を生成し、法律文書の解析や医療診断の補助まで担うようになった。しかし、同じ「AI」の名を持つロボットが、コンビニの棚に商品を並べたり、ケーブルを正確に挿入したりする作業をこなせるようになったのはごく最近のことで、しかも完成度はまだ産業実用の入口付近にとどまる。

　2026年5月、その課題に挑むロボット基盤モデルが日本に上陸した。韓国発のフィジカルAI企業RLWRLD（リアルワールド）が発表会を開き、独自の「Robotics Foundation Model（ロボティクス基盤モデル、RFM）」であるRLDX-1（リアルデックス）を日本初公開した。

RLWRLD（リアルワールド）日本法人代表イ・フン氏（左）／創業者兼CEO リュ・ジュンヒ氏 (Junghee Ryu)（右）

　大規模言語モデル（LLM）が急速に進化した背景には、インターネット上の膨大なテキストデータと「スケーリング則」の発見があった。データ量とモデル規模を増やすほど性能が向上するという経験則が成立したことで、投資と研究が一気に加速した。

　ロボット分野でも、同様の転換点が近づいているとみられている。Google DeepMindが主導した「Open X-Embodiment（OXE）」プロジェクトは、22種類の異なるロボットから集めた約240万エピソードの動作データを公開。ロボット版の「共有データセット」として機能し始めた。公開データは2026年時点で100万エピソードを超え、「3〜4年前のLLMと同じ段階に来ている」との見立てが研究者の間で広まっている。

　この潮流に呼応するように、2024〜2026年にかけてロボット向けの基盤モデルが相次いで登場した。Physical Intelligence（米国）のπ0（パイゼロ）、NVIDIAのGR00T N1、Google DeepMindのGemini Roboticsがその代表格で、いずれも従来の「タスク専用のロボット制御プログラム」とは根本的に異なる設計思想を持つ。

VLAとは何か　「脳と運動神経」の統合

　これらのモデルが共通して採用しているのが、VLA（Vision-Language-Action：視覚・言語・行動統合モデル）というアーキテクチャだ。

　仕組みを平たく言えば、VLAは「VLM（Vision-Language Model：視覚言語モデル）という汎用の脳に、アクションヘッドという運動神経を接続したもの」だ。GPT-4VやGeminiのように画像とテキストを理解するVLMを土台とし、その推論結果をロボットの関節角度や速度といった制御信号に変換するアクションヘッドを付加することで、「命令を理解し、実行する」ロボットの頭脳が成立する。

　たとえば「このリンゴを取って棚に置いてください」という音声命令をVLAが受け取ると、VLMが映像と言語を統合してプランニングを行い、アクションヘッドがそれをローレベルの制御信号に変換してロボットアームを動かす。理論上は、同一のモデルが工場ラインでの部品組み立てから介護施設での補助作業まで、汎用的にこなせる可能性を持つ。

　このパラダイムを開拓したのは、Google DeepMindが2023年中頃に発表したRT-2だった。以来、モデルの汎化性能と動作精度は急速に向上しており、NVIDIAが2025年3月に公開したGR00T N1は「System 1（反射的な高速制御）とSystem 2（VLMベースの計画立案）」という人間の認知の二重構造をアーキテクチャに反映させ、複数のヒューマノイドメーカーが採用を表明した。

　Physical Intelligenceのπ0は、8種類の異なるロボットプラットフォームで学習した汎用モデルとして2024年秋に登場し、翌年にはモデルの重みとコードをオープンソースとして公開。ロボット基盤モデルの「共有インフラ」化を促す動きとなった。

次のページ
残されたフロンティア──「手の操作」という壁

この記事は参考になりましたか？

印刷用を表示

AIdiver Press連載記事一覧: マイナビは管理職約3,000名の行動変容をどう設計したのか──AI活用のためeラーニングを...

管理職の42%がAIを使えない──マイナビが「全管理職必須研修」に踏み切った理由

日本にあって米国にないAI時代の強み　格差を生まない社会実装は可能なのか？

もっと読む

この記事の著者: 京部康男（AIdiver編集部）（キョウベヤスオ）

ライター兼エディター。翔泳社EnterpriseZineとAIdiverには業務委託として関わる。翔泳社在籍時には各種イベントの立ち上げやメディア、書籍、イベントに関わってきた。現在はフリーランスとして、エンタープライズIT、行政情報IT関連、企業のWeb記事作成、企業出版支援などを行う。Mail ...

※プロフィールは、執筆時点、または直近の記事の寄稿時点での内容です

この著者の最近の執筆記事