Компания Google научила робота выполнять команды и перемещаться по офису, используя нейросеть Gemini

Команда Google DeepMind Robotics продемонстрировала, как робот RT-2, который был обучен с помощью нейросети Google Gemini 1.5 Pro и имеет возможность выполнять команды, которые звучат на естественном языке, а также перемещаться по офисному помещению.

DeepMind Robotics опубликовала статью под названием «Mobility VLA: мультимодальная навигация по инструкциям с помощью VLM с длинным контекстом и топологическими графами», в которой в серии видеороликов робот выполняет различные задачи в офисном помещении площадью 9000 кв. футов (836 м²).

В одном из видеороликов сотрудник Google просит робота отвести его куда-нибудь, чтобы порисовать.

«Хорошо, — отвечает тот, — дай мне минутку. Размышляем вместе с Gemini...».

Затем робот подводит человека к лекционной доске размером со стену.

Во втором видео другой сотрудник предлагает роботу следовать указаниям на доске. Он рисует простую карту, на которой показано, как добраться до «Синей зоны». И снова робот на мгновение задумывается, прежде чем отправиться по указанному маршруту к месту, которое оказывается площадкой для испытаний робототехники.

«Я успешно выполнил указания на доске», — докладывает робот.

С помощью программы «Мультимодальная навигация по инструкциям с демонстрационными турами (MINT)» перед съемкой видео роботов ознакомили с пространством. Робот, благодаря этому, имеет возможность перемещаться по офису в соответствии с указанными посредством речи различными ориентирами. Затем DeepMind Robotics использовала иерархическую систему «Видение-Язык-Действие» (VLA), «которая сочетает в себе понимание окружающей среды и силу здравого смысла». После объединения процессов робот получил способность реагировать на написанные и нарисованные команды, а также на жесты и ориентироваться на местности.

Как утверждает Google, примерно в 90 % из 50 взаимодействий с сотрудниками роботы успешно выполняли данные им инструкции.

Источник