スマホと同じ性能でロボットが考えて動く時代がついに到来…Google が発表した技術が人類の生活を一変させる

ある日、ロボットが「空のコップを見て、それを水で満たす」ことができるようになったら、あなたは驚くでしょうか？
それとも「そんなの当たり前じゃない？」と思うでしょうか。

実はこの「当たり前」が、ロボットの世界ではとても難しい挑戦でした。
なぜなら、ロボットは指示されたことしかできない存在だったからです。
でも今、AIの力でロボットたちは”考えながら動く”ことができるようになりつつあります。

そして、その変化の最前線にあるのが、Google の「Gemini Robotics On-Device」という取り組みです。

頭脳を持ち歩くロボットたち
実際に何ができるの？
じゃあ、どうやって動いてるの？
私たちの未来は、どう変わるのか？
最後に――「未来」はいつ始まる？

頭脳を持ち歩くロボットたち

これまでのロボットは、重くて大きなコンピューターに指示されなければ動けませんでした。
たとえば、棚からコップを取るにも、その情報をクラウドに送り、計算結果を待ち、それからようやく動き始める。
まるで、何かあるたびに誰かに電話で聞かないと動けないロボットたちでした。

でも「Gemini Robotics On-Device」は違います。

これは、Google が開発したAI「Gemini 2.0」のマルチモーダル推論技術を、ロボット自身の中に搭載することで、ロボットがその場で状況を理解し、自分で判断して動けるようにする技術です。
つまり、ロボットが”頭脳”を持ち歩く時代がやってきたのです。

実際に何ができるの？

たとえば、テーブルの上に散らばった食器を見て「これを片付けよう」と判断する。
バッグのファスナーを開けたり、服を畳んだりといった高度な器用さを要する作業。
あるいは、自然言語の指示に従って複雑な多段階のタスクを実行する――そんな人間らしいふるまいも、可能になりつつあります。

Google の研究者たちは、実際にカメラとセンサーを通して状況を”見る”ロボットに対して、自然言語（ふつうの言葉）で指示を出し、それに応じて柔軟に動く様子を確認しています。
まるで、ちょっと賢いアシスタントが一緒に家の中にいるような感覚です。

しかもこの Gemini Robotics On-Device は、スマートフォンと同程度のコンピューターリソースで動作可能です。
つまり、特別なスーパーマシンがなくても、日常にAIロボットを導入できる可能性があるということなのです。

じゃあ、どうやって動いてるの？

ここで少しだけ仕組みの話を。

Gemini は、複数の種類の情報（画像、音声、言語など）を同時に理解できる「マルチモーダルAI」です。
このAIが、カメラで見た映像と人の声の指示を同時に理解し「今この状況で何をすべきか」を判断しているのです。

たとえば「棚の上の赤いマグカップを取って」と言われたとき、Gemini は「赤」「マグカップ」「棚」というキーワードを視覚情報と照らし合わせ、目的のモノを特定します。
そして、その後の動作もすべて自分の中で考えて行動します。

従来はこれを、外部サーバーで行っていたため、遅延やエラーが起こることもありました。
でも、on-device モデルではロボット自身でこれを完結できるので、より素早く、自然なふるまいができるようになるのです。

私たちの未来は、どう変わるのか？

この技術が進化すると、介護・災害現場・家庭内アシスタント・農業・教育など、あらゆる現場でロボットが”考えて行動する”存在になります。
たとえば、高齢者の見守りをしながら会話してくれるロボット。
片付けが苦手な子どもを優しく手伝ってくれる家庭用AIロボット。
災害現場で判断して安全な道を開いてくれるサポートロボット…。

私たちの暮らしのそばに「心を持ったように感じられる存在」が増えていく、そんな未来が、もうすぐそこまで来ているのです。