実機データなしでここまで動くのか。Ai2の新技術が変えるロボット開発の常識

ロボットに「このコップを取って、あちらへ置いて」と教えることは、言葉で言うほど簡単ではありません。

人間なら少し見れば分かることでも、ロボットにとっては机の高さ、光の当たり方、物の形、手を伸ばす角度まで、全部が難問です。
まるで、初めて台所に立った人が、包丁もまな板も知らないまま夕食づくりを始めるようなものです。
だからこれまでのロボット開発は、実際の機械を何度も動かし、人が手取り足取り教え、その膨大な実演データを積み上げることで進んできました。
Ai2の発表が注目されたのは、その常識を正面からひっくり返したからです。

2026年3月11日、Ai2は、シミュレーションだけで学んだロボットモデルが、追加の実世界データや微調整なしで現実のロボットへ移る「ゼロショット sim-to-real transfer」を達成したと発表しました。

今回の主役は、Ai2のMolmoBotと、その土台となるMolmoSpacesです。
MolmoSpacesは、23万以上の屋内シーン、13万以上のオブジェクト資産、4200万件超の物理に基づく把持アノテーションを備えた、オープンな embodied AI 向けシミュレーション基盤です。
しかもMuJoCo、Isaac、ManiSkillなど複数のシミュレータに対応し、現実に近い多様な状況を大量に作り出せます。
これは、ロボットにとっての「教科書」ではなく「何度でも失敗できる巨大な練習場」を丸ごと用意したようなものです。

その練習場で鍛えられたMolmoBotは、合成データだけで学習したオープンなロボット操作モデル群です。
Ai2の技術ブログによれば、対象はRainbow Robotics RB-Y1という移動型マニピュレータと、Franka FR3という卓上アームの2種類。
ピックアンドプレース、引き出しや戸棚の開閉、ドア操作といった、現実の生活や研究現場に近いタスクを担います。
つまり、ただ「物をつかむ」だけではありません。
「近づく」「見極める」「つかむ」「引く」といった一連の流れを、未知の環境でもこなせるかが問われているのです。

ここで面白いのは、Ai2が目指したのが、現実をそっくり写した豪華なデジタル双子ではなかったことです。
発想はむしろ逆でした。
現実と同じ一部の場面を精密に再現するより、物の配置、視点、照明、質感、動きの違いをとにかく大量にばらまき、ロボットに「世の中はいつも少しずつ違う」と教える。 Ai2のPRIORチームディレクターであるRanjay Krishna氏は、実世界データを足して差を埋めるのではなく、シミュレーション世界そのものの多様性を爆発的に増やすことで、その差を縮めるという賭けに出たと説明しています。
これは、試験問題を丸暗記させるのではなく、どんな出題でも考え抜けるよう、たくさんのバリエーションに触れさせる勉強法に近いのかもしれません。

実際、元記事によると、MolmoBot-Dataには180万件の expert manipulation trajectories が含まれています。
100基のNVIDIA A100 GPUを使った生成パイプラインは、GPU時間1時間あたり約1024エピソードを生み出し、実時間1時間につき130時間超のロボット経験に相当する学習データを作れたとされています。
しかも、これは従来の実機による収集と比べて、約4倍のデータスループットに相当します。
ロボット開発でいちばん高くつくのは、実はロボット本体より「人が付き添って教える時間」なのだと考えると、この意味はとても大きいはずです。
研究予算の重さで閉ざされていた扉が、少し軽くなるからです。

性能面でも、話題になるだけの数字が並びます。
元記事では、卓上のピックアンドプレース評価で、主力モデルのMolmoBotが79.2％の成功率を記録したと報じられています。
これは、大量の実世界デモデータで訓練されたπ0.5の39.2％を大きく上回る結果です。
さらに、見たことのない物体や新しい環境でも、追加のファインチューニングなしで実機へ移れるゼロショット転移を確認したとされています。
もちろん、これだけで「もう現実のロボット訓練は不要」と言い切るのは早いでしょう。
ただ、少なくとも「高価な実演データがなければ始まらない」という前提には、明らかに揺らぎが生まれました。

このニュースが大きいのは、ロボティクスの勝ち負けだけではありません。
physical AI、simulation data、robotics、open-source というキーワードが、ひとつの流れとしてつながったことです。
Ai2はモデル、シミュレーション基盤、把持アノテーション、データ生成パイプライン、ベンチマークを公開し、閉じた巨大研究所だけが前に進む形ではなく、より多くの研究者や企業が再現し、検証し、改良できる土台を目指しています。
論文側でも、MolmoSpaces-Benchは現実との強い相関を示したとされており、仮想世界が単なるおもちゃ箱ではなく、現実につながる実験場になりつつあることがうかがえます。

初心者の視点で言えば、今回の話は「ロボットが賢くなった」というだけではありません。
もっと本質的には、ロボットの育て方が変わり始めたということです。
これまでは、実際の現場で高い授業料を払いながら学ばせていた。
これからは、まず仮想世界という広大な練習場で徹底的に鍛え、現実には、より強くなった状態で送り出す。
まるで、いきなり本番の舞台に立たせるのではなく、無数のリハーサルを積ませてから幕を開けるような変化です。

ロボットが家庭や病院や研究室に自然に入ってくる未来は、まだ少し先かもしれません。
でも、その未来は、金属の腕そのものより先に、見えない仮想空間の中で育っていくのかもしれない。
そう思うと、今回のAi2の発表は、単なる技術ニュースではなく、物理AIの「学びの風景」が変わる瞬間を知らせる合図のように感じられます。

現実を動かす力は、案外、仮想世界の中で静かに育つのです。

参考：Ai2: Building physical AI with virtual simulation data