これらの Google ロボットは長時間ビデオを視聴します。その理由はわかりますか?

Googleは、ロボットに人間と同じようにビデオを視聴させるという新しい学習方法を開発している。この革新的なアプローチにより、これらのマシンは驚くべき精度でタスクをナビゲートし、完了することができます。

robot google apprend
出典: Google

技術革新は私たちの日常環境を再定義し続けています。のますます洗練されたデバイス私たちの生活のさまざまな側面に組み込まれており、日常業務をより簡単かつ効率的にします。例えば、テスラはイーロン・マスク氏のリーダーシップの下、来年自社工場に1,000台以上のオプティマス人型ロボットを組み込む計画だ。この野心は、これらの機械が私たちの生活の中でどれほど多くのスペースを占め始めているかを示しています。

2021 年 11 月以降、マウンテンビューにある Google のオフィスでは家庭用ロボットをホストしています進歩します。これら機械は、同社のX研究所が開発したもので、テーブルの清掃、椅子の交換、廃棄物の分別を行うことができる。しかし、彼らの自主的に学ぶ能力人間みたいなのが印象的です。

Google の RT-2 ロボットは複数の動画を同時に見て学習できる

Google のロボット RT-2、が装備されています人工知能モデル Gemini 1.5 Pro。彼らは人間の訓練生と同じ方法、つまりビデオを見ることで学習します。この AI モデルはそれを可能にします長いビデオシーケンスを分析する同時に、多くの情報を一度に理解して記憶するために。研究者は家やオフィスなどの特定の場所を撮影し、ヒューマノイドはそれらを観察して、それらの環境内で移動してタスクを完了する方法を学びます。

実際に、これらのロボットは次のような素晴らしい能力を示しています。指示に従ってくださいそして複雑なタスクを達成します。 9000平方メートルのエリアで、ジェミニを装備したこれらの人型生物はなんとか50以上の異なる指示に従ってください成功率90%。冷蔵庫内の飲み物の有無を確認するなど、複数のステップのタスクを実行できます。この技術はまだすぐに商業化できる段階ではありませんが、ヘルスケア、物流、清掃サービスなどのさまざまな分野での新しい用途への道が開かれます。

Gemini 1.5 Pro の長いコンテキスト ウィンドウは、ロボットが世界を移動するのにどのように役立つのでしょうか? 🤖

私たちの最新の実験のスレッド。 🧵pic.twitter.com/ZRQqQDEw98

— Google ディープマインド (@GoogleDeepMind)2024 年 7 月 11 日