Проявление «жесткой любви» роботам помогает им добиться успеха: люди, действующие враждебно по отношению к роботизированным системам, могут на самом деле повысить их надежность

В задаче манипулирования, смоделированной компьютером, исследователи обнаружили, что обучение робота с человеком-противником значительно улучшило его понимание объектов.
«Это первая попытка обучения роботов с использованием злоумышленников-людей», – сказал соавтор исследования Стефанос Николаидис, доцент кафедры информатики.

"Представьте это как спорт: если вы играете в теннис с кем-то, кто всегда позволяет вам побеждать, вам не станет лучше. То же самое с роботами. Если мы хотим, чтобы они научились задаче манипуляции, такой как хватание, чтобы они могли помогать людям, нам нужно бросить им вызов."

Исследование «Обучение роботов через состязательные игры людей» было представлено в ноябре. 4 место на Международной конференции по интеллектуальным роботам и системам.

Аспиранты USC Цзяли Дуань и Цянь Ван являются ведущими авторами под руководством профессора С. C. Джей Куо с дополнительным соавтором Леррелом Пинто из Университета Карнеги-Меллона.
Учимся на практике

Николаидис, который присоединился к инженерной школе Университета Калифорнии в Витерби в 2018 году, и его команда используют обучение с подкреплением, метод, при котором программы искусственного интеллекта «учатся» на повторяющихся экспериментах.

Вместо того, чтобы ограничиваться выполнением небольшого набора повторяющихся задач, таких как промышленные роботы, роботизированная система «учится» на основе предыдущих примеров, теоретически увеличивая круг задач, которые она может выполнять.

Но создание роботов общего назначения, как известно, является сложной задачей, отчасти из-за необходимого количества обучения. Роботизированным системам нужно увидеть огромное количество примеров, чтобы научиться манипулировать объектом по-человечески.

Например, впечатляющая роботизированная система OpenAI научилась собирать кубик Рубика с помощью гуманоидной руки, но для того, чтобы научиться манипулировать кубом, потребовалось 10 000 лет имитационного обучения.
Что еще более важно, ловкость робота очень специфична. Без обширного обучения он не может поднять объект, манипулировать им другим хватом или схватить и обработать другой объект.

«Как человек, даже если я знаю местоположение объекта, я не знаю точно, сколько он весит или как он будет двигаться или вести себя, когда я поднимаю его, но мы делаем это успешно почти всегда», – сказал Николаидис.

"Это потому, что люди очень интуитивно понимают, как себя ведет мир, но робот похож на новорожденного ребенка."
Другими словами, роботизированные системы трудно обобщить, а этот навык люди считают само собой разумеющимся.

Это может показаться тривиальным, но может иметь серьезные последствия. Если вспомогательные роботизированные устройства, такие как захватывающие роботы, должны выполнить свое обещание по оказанию помощи людям с ограниченными возможностями, роботизированные системы должны иметь возможность надежно работать в реальных условиях.

Человек в петле
Одно направление исследований, которое было весьма успешным в преодолении этой проблемы, – это «человек в курсе».«Другими словами, человек обеспечивает обратную связь с роботизированной системой, демонстрируя способность выполнять задачу.

Но до сих пор эти алгоритмы основывались на сильном предположении о взаимодействии человека-супервизора, помогающего роботу.
«Я всегда работал над сотрудничеством человека и робота, но на самом деле люди не всегда будут сотрудничать с роботами в дикой природе», – сказал Николаидис.

В качестве примера он приводит исследование японских исследователей, которые выпустили робота на свободу в общественном торговом комплексе и несколько раз наблюдали, как дети «прибегали к насилию» по отношению к нему.
Итак, подумал Николаидис, что, если бы мы использовали нашу человеческую склонность, чтобы усложнить задачу роботу?? Вместо того, чтобы показывать, как лучше схватить объект, что, если бы мы попытались его оторвать?

Считается, что добавив проблемы, система научится быть более устойчивой к реальной сложности.
Элемент вызова

Эксперимент проходил примерно так: в компьютерном моделировании робот пытается схватить объект. Человек за компьютером наблюдает за хваткой смоделированного робота. Если захват успешен, человек пытается вырвать объект из рук робота, используя клавиатуру, чтобы указать направление.

Добавление этого элемента вызова помогает роботу понять разницу между слабым хватом (скажем, держа бутылку наверху) и твердым хватом (удерживая ее посередине), что значительно усложняет противнику-человеку возможность увести его.
Это была немного сумасшедшая идея, признает Николаидис, но она сработала.
Исследователи обнаружили, что система, обученная противнику-человеку, отвергала нестабильные хватки, и быстро научились надежным хватам для этих объектов. В ходе эксперимента модель достигла 52% успеха схватывания с противником-человеком по сравнению с 26%.5% успешных попыток с сотрудником-человеком.

«Робот научился не только более надежно захватывать объекты, но и чаще добиваться успеха с новыми объектами в другой ориентации, потому что он научился более устойчивому захвату», – сказал Николаидис.
Они также обнаружили, что модель, обученная противнику-человеку, работала лучше, чем симулированный противник, у которого был 28% успешный захват.

Итак, роботизированные системы лучше всего учатся у противников из плоти и крови.
«Это потому, что люди могут понять стабильность и надежность лучше, чем образованные противники», – пояснил Николаидис.
"Робот пытается подобрать что-то, и, если человек пытается прервать его, это приводит к более стабильному захвату. И поскольку он научился более устойчивому захвату, он будет добиваться успеха чаще, даже если объект находится в другом положении.

Другими словами, он научился обобщать. Это большое дело."

Поиск баланса
Николаидис надеется, что система будет работать на реальном манипуляторе робота в течение года. Это представит новую проблему – в реальном мире малейшее трение или шум в суставах робота может испортить ситуацию.

Но Николаидис надеется на будущее состязательного обучения робототехнике.
«Я думаю, мы только что коснулись поверхности потенциальных приложений обучения через состязательные человеческие игры», – сказал Николаидис.
«Мы рады исследовать состязательное обучение человека в цикле и для других задач, таких как предотвращение препятствий для роботизированного оружия и мобильных роботов, таких как беспилотные автомобили."
Возникает вопрос: как далеко мы готовы зайти в познании соперничества??

Хотели бы мы пнуть и избивать роботов до подчинения?? По словам Николаидиса, ответ заключается в том, чтобы найти баланс жесткой любви и поддержки с нашими коллегами из робототехники.
«Я чувствую, что жесткая любовь – в контексте предлагаемого нами алгоритма – снова похожа на спорт: она подпадает под определенные правила и ограничения», – сказал Николаидис.

"Если человек просто сломает захват робота, робот будет постоянно отказываться и никогда не научится. Другими словами, роботу нужно бросить вызов, но все же дать ему возможность добиться успеха, чтобы научиться."