«В качестве модели мы задействовали роборуку с шестью степенями свободы. Нашей целью было научить ее самостоятельно сортировать объекты на столе по цветам и собирать их в заданную область. Свои действия роборука должна была выбирать на основе текстовой инструкции и данных с видеокамер», — объяснил суть научной работы один из авторов исследования, аспирант Центра когнитивного моделирования МФТИ и научный сотрудник AIRI Алексей Староверов.
«Новизна работы в том, что для обучения робота мы использовали готовые языковые модели — алгоритмы, которые помогают переводить естественную речь в код, понятный системе управления. Она представляют собой нейронные сети, которые предобучены на больших объемах текстовых данных. В нашем случае была применена мультимодальная модель RozumFormer. В отличие от других, она, может генерировать ответ и на текстовые запросы, и на те, которые сделаны в виде изображений», — рассказал соавтор работы младший научный сотрудник ФИЦ «Информатика и управление» РАН и научный сотрудник AIRI Алексей Ковалев. Он пояснил, что в ходе работы была проведена тонкая настройка языковой модели. Ученые дообучили нейронную сеть, чтобы она могла «понимать» цвета кубиков, расстояния до них и другие параметры окружающей действительности. Настройка производилась в виртуальной среде, а потом дообученная языковая модель применялась для управления манипулятором в реальном окружении.
«Робототехника изначально подразумевает мультимодальный подход к обработке информации. То есть машинному интеллекту необходимо учитывать и синхронизировать, например, кадры с видеокамер, с данными от лидаров (приборов для определения расстояний). Это обычно называется комплексированием информации. Такие задачи решаются разными методами. Однако, применение для этих целей языковых моделей продемонстрировало перспективность метода», — прокомментировал значение исследования руководитель группы, ведущий научный сотрудник Института искусственного интеллекта AIRI и ФИЦ «Информатика и управление» Александр Панов.