— Мало кто задумывается над этим, но задачи, которые легко решают люди, очень трудны для алгоритмической реализации в искусственном интеллекте. Например, мы ходим, свободно ориентируемся в незнакомом физическом пространстве, не задеваем плечами стены, способны в доли секунды сообразить, как открыть дверь. Все эти тривиальные для нас вещи невероятно трудно реализовать в электронном «мозге» и механике движения робота. И в то же время мы не слишком хорошо и быстро складываем в столбик, запоминаем длинные ряды чисел или прогнозируем, как продлится ряд, что для компьютеров не составляет никакого труда, — рассказывает Юрий Чайников.
— Люди, если вести счёт с первых живых организмов, прошли путь эволюции длиною в миллиарды лет. Всё это время бесчисленные поколения живых существ находились под жесточайшим давлением естественного отбора, который за нас осуществляет сама физика нашего мира. Например, если ты упал, споткнувшись, и не выставил вперёд руку, то рискуешь сломать себе шею. Если ты прыгнул с ветки на ветку и не долетел, то рискуешь упасть вниз и быть съеденным дикими зверями. Если ты в хаосе световых пятен не умеешь распознавать паттерн поведения хищника, то вероятность твоего выживания гораздо ниже, чем у того, кто умеет. Те, у кого всё это получалось хуже, просто не выжили, поэтому в нас прошита история сотен миллионов поколений, которые внутри себя моделировали физику реального мира. В некотором смысле наш мозг всё время занимается предсказанием того, что с нами произойдёт в следующие мгновения. Поэтому складывать числа может крайне небольшое количество видов на Земле, а обращаться с физикой этого мира — все живые на текущий момент существа. Даже амёба ползёт в сторону сахара и прочь от горячего. Всё это совершенно не очевидно для робота, — отмечает эксперт.
— Возьмём для примера ребёнка. Обычно к двум годам он уже сносно ходит. Почему? Потому что он два года непрерывно учился на потоке данных о физической реальности. Два года — это большой срок. Насколько мне известно, ни одну нейросеть не учили столько времени работать с физическим пространством, — говорит Юрий Чайников.
— Современные нейросети много учатся, получают много видеоданных об окружающей среде и текстовых описаний того, как устроен мир. Тем самым, они впитывают множественные описания устройства нашего мира. Если отпустить предмет, он падает, если наклонить чашку, то из неё вытечет содержимое, если долго оставить на газу чайник, то он выкипит и расплавится. Эти текстовые описания, которыми мы «кормим» мультимодальные модели, и изображения того, что происходит, приводят к интеграции внутри нейросети разных видов знания, к накоплению закономерностей. Это позволяет нейросетям лучше планировать действия, чтобы достигать долгосрочной цели. В конечном счёте это позволит роботу с искусственным интеллектом пройти пока что непреодолимый для него «кофейный тест»: понять, чего хочет пользователь, сориентироваться в пространстве, пойти, не задев двери, открыть дверцу шкафа, найти кофе, найти воду и сварить кофе, — заключает эксперт.