Анализ глубины — одна из основных задач приложений компьютерного зрения. Чтобы робот мог ориентироваться в пространстве, а фильтр дополненной реальности наложился на нужное изображение, система должна правильно оценивать расстояния до каждого объекта в кадре.
Как правило, карты глубины строятся на основе информации, поступающей от специальных датчиков. Наиболее популярный из них — лидар. Это устройство направляет луч света и измеряет время, за которое отражение вернется назад. Недостатки такой технологии: ограниченный радиус действия и высокая стоимость сенсоров. В качестве альтернативы также применяются RGB-камеры. Такой метод используется при разработке различных AR-приложений для смартфонов.
Новая технология объединила разные подходы к решению задачи оценки глубины. Исследователи разработали модели, которые используют глобальную пространственную информацию для создания максимально точных карт. Предложенная модель сочетает в себе преимущества трансформеров и сверточных нейронных сетей. Авторы отмечают, что модель настраивается с помощью самообучения и не нуждается в данных от датчиков глубины.
Разработчики сообщили, что предложенный метод прошел оценку эффективности на независимых наборах данных и показал одни из лучших в мире результатов. Информацию о моделях и методах обещают в скором времени разместить в открытом доступе.
Источник