Калифорнийская робототехническая компания Figure представила универсальную систему управления Helix для человекоподобных роботов. Это двухуровневый нейросетевой алгоритм, связывающий зрительное восприятие и понимание языка с действиями робота. Под управлением Helix роботы с помощью простых голосовых команд могут манипулировать практически любыми предметами, даже если не встречались с ними ранее. Модель способна управлять несколькими роботами одновременно и позволяет им совместно выполнять одну задачу. Кроме того, Figure дополнительно доработала модель для сортировки посылок на конвейере, в результате чего роботы превзошли по скорости операторов-людей. Компания показала видео работы роботов в домашних условиях и на сортировке посылок, и опубликовала описание системы.
Основное преимущество человекоподобных роботов заключается в их универсальной способности работать в человеческой среде — благодаря антропоморфному телу они могут использовать уже существующие инструменты, мебель и инфраструктуру. Однако недостаточно просто придать роботу человеческую форму, необходимо еще и научить его правильно выполнять требуемую задачу. И с этим у инженеров есть проблемы — чтобы научить робота даже одному новому действию, например, захвату и перемещению объекта, до недавних пор требовалось либо ручное программирование, либо использование моделей машинного обучения, обученных на огромном объеме данных, например, на множестве демонстраций, в которых люди-операторы через систему дистанционного управления вручную показывают роботу правильный порядок движений (обучение через имитацию). Ситуация осложняется большим разнообразием окружений и объектов, с которыми роботу предстоит иметь дело.
Калифорнийский стартап Figure, занимающийся разработкой человекоподобных роботов, утверждает, что смог найти решение. Инженеры компании создали Helix — универсальную VLA-модель (Vision-Language-Action), которая объединяет обработку визуальной информации, понимание языка и управление движениями робота в единую систему. Helix имеет двухуровневую архитектуру. Одна из подсистем представляет собой зрительно-языковую модель на основе опенсорс-нейросети с семью миллиардами параметров, обученной на интернет-данных. На ее вход поступает изображение с камер робота, информация о его текущем состоянии (положение запястий, степень сгиба пальцев и так далее), и текстовые команды, описывающие требуемое действие. Модель преобразует эти данные в скрытое представление, обобщающее всю информацию о текущей задаче, после чего передает его на второй уровень.
Основное преимущество человекоподобных роботов заключается в их универсальной способности работать в человеческой среде — благодаря антропоморфному телу они могут использовать уже существующие инструменты, мебель и инфраструктуру. Однако недостаточно просто придать роботу человеческую форму, необходимо еще и научить его правильно выполнять требуемую задачу. И с этим у инженеров есть проблемы — чтобы научить робота даже одному новому действию, например, захвату и перемещению объекта, до недавних пор требовалось либо ручное программирование, либо использование моделей машинного обучения, обученных на огромном объеме данных, например, на множестве демонстраций, в которых люди-операторы через систему дистанционного управления вручную показывают роботу правильный порядок движений (обучение через имитацию). Ситуация осложняется большим разнообразием окружений и объектов, с которыми роботу предстоит иметь дело.
Калифорнийский стартап Figure, занимающийся разработкой человекоподобных роботов, утверждает, что смог найти решение. Инженеры компании создали Helix — универсальную VLA-модель (Vision-Language-Action), которая объединяет обработку визуальной информации, понимание языка и управление движениями робота в единую систему. Helix имеет двухуровневую архитектуру. Одна из подсистем представляет собой зрительно-языковую модель на основе опенсорс-нейросети с семью миллиардами параметров, обученной на интернет-данных. На ее вход поступает изображение с камер робота, информация о его текущем состоянии (положение запястий, степень сгиба пальцев и так далее), и текстовые команды, описывающие требуемое действие. Модель преобразует эти данные в скрытое представление, обобщающее всю информацию о текущей задаче, после чего передает его на второй уровень.
Вторая подсистема — зрительно-моторная модель. Это обученный на данных телеманипуляций трансформер с 80 миллионами параметров, который управляет всей верхней половиной тела робота, включая движения рук, пальцев, головы и корпуса. В него передаются те же данные с камер и текущее состояние, а также вектор данных, сформированный предыдущей подсистемой. Первая высокоуровневая система, отвечающая за понимание сцены и языковых команд, работает на частоте 7–9 герц, а низкоуровневая, формирующая действия робота, — на частоте 200 герц. Такое разделение позволяет им работать в оптимальном временном масштабе: подсистема верхнего уровня «медленно думает» о высокоуровневых целях, а низкоуровневая «быстро думает», выполняя и корректируя физические действия робота в реальном времени.
Для обучения Helix инженеры Figure записали около 500 часов высококачественных данных демонстраций различных манипуляций. Для создания текстовых инструкций к ним использовалась система автоматической аннотации: зрительно-языковая модель анализировала видеозаписи и генерировала текстовые команды в формате «какие действия робот должен сделать в этом видео?». Обе подсистемы Helix обучались совместно сквозным образом (end-to-end). В результате модель научилась выполнять сложные манипуляции без необходимости в ручной настройке для каждой новой задачи.
Helix работает на двух видеокартах с низким энергопотреблением, встроенных в роботов Figure 02. Одна модель с одними и тем же набором весов нейросетей может управлять несколькими роботами одновременно, и описанный выше подход позволяет им быстро подстраиваться к движениям друг друга во время совместной работы над одной задачей. Роботы, оснащенные Helix, могут взять практически любой небольшой предмет с помощью голосовой команды. В тестах роботы успешно справлялись со множеством новых предметов, разложенных в беспорядке, — от стеклянной посуды и игрушек до инструментов и одежды — без каких-либо предварительных демонстраций или специального программирования.
Figure опубликовала несколько демонстрационных видео. В одном из них два робота выполняют уборку продуктов на кухне. Перед роботами выкладывают на стол несколько предметов, которые они ранее не видели, и дают абстрактную команду убрать их. Роботы самостоятельно распознают объекты и распределяют их по полкам холодильника и шкафа. При этом они координируют движения друг с другом и, если необходимо, передают предметы. Для применения Helix в логистике инженеры Figure доработали систему восприятия, чтобы роботы могли эффективно сортировать посылки на конвейере. Чтобы увеличить точность манипуляций, разработчики добавили в алгоритм учет стереоскопического зрения, в результате чего роботы научились лучше оценивать глубину сцены, корректировать захваты в реальном времени и ориентировать посылки разного размера, формы и материала штрих-кодами вверх. Роботы достигли производительности, сопоставимой с работой под управлением телеоператора, а в ускоренном режиме даже превзошли операторов по скорости, сохранив при этом точность действий.
Для обучения Helix инженеры Figure записали около 500 часов высококачественных данных демонстраций различных манипуляций. Для создания текстовых инструкций к ним использовалась система автоматической аннотации: зрительно-языковая модель анализировала видеозаписи и генерировала текстовые команды в формате «какие действия робот должен сделать в этом видео?». Обе подсистемы Helix обучались совместно сквозным образом (end-to-end). В результате модель научилась выполнять сложные манипуляции без необходимости в ручной настройке для каждой новой задачи.
Helix работает на двух видеокартах с низким энергопотреблением, встроенных в роботов Figure 02. Одна модель с одними и тем же набором весов нейросетей может управлять несколькими роботами одновременно, и описанный выше подход позволяет им быстро подстраиваться к движениям друг друга во время совместной работы над одной задачей. Роботы, оснащенные Helix, могут взять практически любой небольшой предмет с помощью голосовой команды. В тестах роботы успешно справлялись со множеством новых предметов, разложенных в беспорядке, — от стеклянной посуды и игрушек до инструментов и одежды — без каких-либо предварительных демонстраций или специального программирования.
Figure опубликовала несколько демонстрационных видео. В одном из них два робота выполняют уборку продуктов на кухне. Перед роботами выкладывают на стол несколько предметов, которые они ранее не видели, и дают абстрактную команду убрать их. Роботы самостоятельно распознают объекты и распределяют их по полкам холодильника и шкафа. При этом они координируют движения друг с другом и, если необходимо, передают предметы. Для применения Helix в логистике инженеры Figure доработали систему восприятия, чтобы роботы могли эффективно сортировать посылки на конвейере. Чтобы увеличить точность манипуляций, разработчики добавили в алгоритм учет стереоскопического зрения, в результате чего роботы научились лучше оценивать глубину сцены, корректировать захваты в реальном времени и ориентировать посылки разного размера, формы и материала штрих-кодами вверх. Роботы достигли производительности, сопоставимой с работой под управлением телеоператора, а в ускоренном режиме даже превзошли операторов по скорости, сохранив при этом точность действий.