Исследователи расширяют способность роботов учиться по видео

Новая работа Университета Карнеги-Меллона позволила роботам обучаться домашним обязанностям, просматривая видеоролики о людях, выполняющих повседневные задачи в своих домах.

Исследование могло бы помочь повысить полезность роботов в быту, позволив им помогать людям с такими задачами, как приготовление пищи и уборка. Два робота успешно выполнили 12 заданий, включая открытие выдвижного ящика, дверцы духовки и крышки; снятие кастрюли с плиты; и взятие в руки телефона, овощей или банки с супом.

«Робот может узнать, где и как люди взаимодействуют с различными объектами, просматривая видео», — сказал Дипак Патхак, доцент Института робототехники в Школе компьютерных наук CMU. «Основываясь на этих знаниях, мы можем обучить модель, которая позволяет двум роботам выполнять аналогичные задачи в различных условиях».

Современные методы обучения роботов требуют либо ручной демонстрации задач людьми, либо интенсивного обучения в имитируемой среде. И то, и другое отнимает много времени и может привести к сбоям. Прошлые исследования Патака и его студентов продемонстрировали новый метод, с помощью которого роботы учатся, наблюдая за выполнением задач людьми. Однако WHIRL, сокращение от обучения робота, имитирующего человека в дикой природе, требовало, чтобы человек выполнял задание в той же среде, что и робот.

В этом видео показано, как VRB изучает задание. Источник: Университет Карнеги-Меллона

Последняя работа Патака, Vision-Robotics Bridge, или сокращенно VRB, основана на технологии WHIRL и улучшает ее. Новая модель устраняет необходимость в демонстрации на людях, а также необходимость в том, чтобы робот работал в идентичной среде. Как и WHIRL, роботу все еще требуется практика, чтобы справиться с задачей. Исследование команды показало, что он может освоить новую задачу всего за 25 минут.

«Мы смогли водить роботов по кампусу и выполнять всевозможные задачи», — сказал Шихар Бахл, аспирант по робототехнике. «Роботы могут использовать эту модель, чтобы с любопытством исследовать окружающий мир. Вместо того чтобы просто размахивать руками, робот может быть более непосредственным в том, как он взаимодействует».

Чтобы научить робота взаимодействовать с объектом, команда применила концепцию доступности. Доступность уходит своими корнями в психологию и относится к тому, что окружающая среда предлагает индивиду. Эта концепция была распространена на дизайн и взаимодействие человека и компьютера, чтобы относиться к потенциальным действиям, воспринимаемым человеком.

Для VRB возможности определяют, где и как робот может взаимодействовать с объектом, основываясь на поведении человека. Например, когда робот наблюдает, как человек открывает выдвижной ящик, он определяет точки соприкосновения — ручку — и направление перемещения выдвижного ящика — прямо от исходного положения. Просмотрев несколько видеороликов о том, как люди открывают ящики, робот может определить, как открыть любой ящик.
В этом видео показано, как работает VRB. Источник: Университет Карнеги-Меллона

Команда использовала видеоролики из больших наборов данных, таких как Ego4D и Epic Kitchens. У Ego4D есть почти 4000 часов эгоцентрических видеороликов о повседневной деятельности со всего мира. Исследователи из CMU помогли собрать некоторые из этих видеороликов. В Epic Kitchens есть похожие видеоролики, запечатлевающие приготовление пищи, уборку и другие кухонные задачи. Оба набора данных предназначены для обучения моделям компьютерного зрения.

«Мы используем эти наборы данных по-новому», — сказал Бахль. «Эта работа могла бы позволить роботам извлекать уроки из огромного количества доступных в Интернете и на YouTube видеороликов».

Более подробная информация доступна на веб-сайте проекта и в документе, представленном в июне на конференции по зрению и распознаванию образов.