残されたフロンティア──「手の操作」という壁
ではなぜ、言語AIほどの普及速度でロボットAIが広がらないのか。
発表会でRLWRLDのチーフサイエンティストであるシン・ジンウ氏(KAIST AI大学院教授)はこう語った。
「AIは言語・視覚・生成の分野で目覚ましい進歩を遂げてきました。しかし、まだ十分に解かれていない1つのフロンティアが残っています。それが、手を使った作業です」(シン氏)
コーヒーをカップに注ぐ、ケーブルを端子に挿す、名刺のような薄い物を正確につまむ。人間にとっては無意識に行うこれらの動作が、ロボットには「最も難しい課題の1つ」であり続けている。精緻な手の制御には、触覚・力覚・記憶が同時に融合して働く必要があるからだ。
VLMを土台とした既存のVLAモデルは、カメラ映像と言語命令を主な入力とする。しかしコンビニの陳列棚への補充作業を考えると、袋が破れないよう「どれくらいの力で掴むか」という力覚の調整や、商品が視野の外に隠れた際に触覚で確認しながら動くといった操作が求められる。これらは映像データをいくら増やしても、ピクセルには映らない情報だ。
RLWRLDのリュ・ジュンヒCEOは同社プレスリリースで「ピクセルに収まらない情報は、どれだけ映像を集めても可視化することはできない」と述べ、既存VLAの構造的限界を指摘している。
RLDX-1が提示したアプローチ Dexterity-Firstとは

RLWRLDがこの問いに対して提示したのが、「Dexterity-First(器用さ優先)」という設計思想だ。業界の通説である「知能が先に実現すれば器用さは自然と備わる」という考え方を逆転させ、器用さこそが知能が物理世界で行動するために不可欠なプロセスだと考えている。
その中核にあるのが、MSAT(Multi-Stream Action Transformer:マルチストリーム・アクション・トランスフォーマー)という技術になる。従来のVLAが映像・言語・行動などの異なる信号を1本のストリームで処理していたのに対し、MSATはモダリティごとに独立したストリームを設け、それらをジョイントアテンション(joint attention)によって統合する。
発表会で示されたベンチマーク結果も注目を集めた。グローバル公開ベンチマーク8種でGR00T N1やπ0を上回り、接触重視タスク「RoboCasa Kitchen」では70.6点、ヒューマノイド専用評価「GR-1 Tabletop」では58.7点(次点に10.7ポイント差)を記録。実機での評価でも、動的な重量変化を伴うコーヒー注ぎタスクで70.8%の成功率を達成し、比較対象モデルの30%台後半と比べて約2倍の性能を示したという。
もっとも、ベンチマーク結果の解釈には慎重さも必要だ。RLWRLDが設計・公開した自社ベンチマーク「DexBench」との親和性や、評価タスクの選定がモデルの強みに沿っている可能性は否定できない。実際の産業現場での長期耐久性や信頼性は、これからの実証で明らかになっていく。
