Например, системы искусственного интеллекта, управляющие беспилотными автомобилями, проходят обширное обучение в виртуальных симуляторах, чтобы подготовить автомобиль практически к каждому событию на дороге. Но иногда автомобиль делает неожиданную ошибку в реальном мире, потому что происходит событие, которое должно, но не изменить поведение автомобиля.
Рассмотрим беспилотный автомобиль, который не был обучен и, что более важно, не имеет необходимых датчиков, чтобы различать совершенно разные сценарии, такие как большие белые автомобили и машины скорой помощи с красными мигающими огнями на дороге.
Если машина едет по шоссе и скорая помощь включает сирены, машина может не знать, что нужно замедлить скорость и остановиться, потому что она не воспринимает скорую помощь как большую белую машину.
В двух статьях, представленных на прошлогодней конференции Autonomous Agents and Multiagent Systems и на предстоящей конференции Association for the Advancement of Artificial Intelligence, – исследователи описывают модель, которая использует человеческий вклад для выявления этих обучающих "слепых пятен"."
Как и в случае с традиционными подходами, исследователи подвергли систему ИИ имитационному обучению. Но затем человек внимательно следит за действиями системы, как она действует в реальном мире, обеспечивая обратную связь, когда система допустила или собиралась совершить какие-либо ошибки.
Затем исследователи объединяют данные обучения с данными обратной связи от человека и используют методы машинного обучения для создания модели, которая выявляет ситуации, в которых системе, скорее всего, потребуется дополнительная информация о том, как действовать правильно.
Исследователи подтвердили свой метод с помощью видеоигр, где имитация человека исправляла выученный путь персонажа на экране.
Но следующим шагом будет объединение модели с традиционными подходами к обучению и тестированию автономных автомобилей и роботов с обратной связью от человека.
«Модель помогает автономным системам лучше знать то, чего они не знают», – говорит первый автор Рамия Рамакришнан, аспирант Лаборатории компьютерных наук и искусственного интеллекта. "Много раз, когда эти системы развернуты, их обученные симуляции не соответствуют реальным условиям [и] они могут совершать ошибки, например попадать в аварии. Идея состоит в том, чтобы использовать людей, чтобы преодолеть этот разрыв между симуляцией и реальным миром безопасным способом, чтобы мы могли уменьшить некоторые из этих ошибок."
Соавторами обоих документов являются: Джули Шах, доцент кафедры аэронавтики и астронавтики и руководитель группы интерактивной робототехники CSAIL; и Эдже Камар, Дебадипта Дей и Эрик Хорвиц, все из Microsoft Research. Бесмира Нуши – дополнительный соавтор предстоящей статьи.
Принимая обратную связь
Некоторые традиционные методы обучения действительно обеспечивают обратную связь с людьми во время реальных тестовых прогонов, но только для обновления действий системы. Эти подходы не определяют слепые зоны, которые могут быть полезны для более безопасного выполнения в реальном мире.
Подход исследователей сначала проводит систему искусственного интеллекта через симуляционное обучение, где она вырабатывает «политику», которая, по сути, отображает каждую ситуацию в соответствии с наилучшими действиями, которые она может предпринять в симуляциях.
Затем система будет развернута в реальном мире, где люди подают сигналы об ошибках в регионах, где действия системы недопустимы.
Люди могут предоставлять данные разными способами, например, посредством «демонстраций» и «исправлений»."В демонстрациях человек действует в реальном мире, в то время как система наблюдает и сравнивает действия человека с тем, что он сделал бы в этой ситуации.
Например, для беспилотных автомобилей человек будет вручную управлять автомобилем, в то время как система подает сигнал, если его запланированное поведение отличается от поведения человека. Совпадения и несоответствия с действиями человека дают зашумленные указания на то, где система может действовать приемлемо или неприемлемо.
В качестве альтернативы, человек может внести исправления, при этом человек будет контролировать систему, как она действует в реальном мире.
Человек мог сидеть за рулем, пока беспилотный автомобиль едет по запланированному маршруту. Если действия машины правильные, человек ничего не делает. Однако, если действия автомобиля неправильные, человек может сесть за руль, что даст сигнал о том, что система не действовала недопустимым образом в данной конкретной ситуации.
После того, как данные обратной связи от человека собраны, система, по сути, имеет список ситуаций и для каждой ситуации несколько ярлыков, указывающих, что ее действия были приемлемыми или неприемлемыми. Одна ситуация может получать много разных сигналов, потому что система воспринимает многие ситуации как идентичные. Например, автономный автомобиль мог много раз проезжать рядом с большим автомобилем, не сбавляя скорости и не останавливаясь.
Но только в одном случае скорая помощь, которая выглядит точно так же для системы, курсирует по. Автономный автомобиль не останавливается и получает сигнал обратной связи, что система предприняла недопустимое действие.
"В этот момент система получила несколько противоречивых сигналов от человека: некоторые с большой машиной рядом с ней, и она работала нормально, и один, где скорая помощь находилась в том же самом точном месте, но это было не очень хорошо.
Система делает небольшую отметку, что она сделала что-то не так, но не знает почему », – говорит Рамакришнан. «Поскольку агент получает все эти противоречивые сигналы, следующим шагом будет сбор информации, чтобы спросить:« Насколько вероятно, что я совершу ошибку в этой ситуации, когда я получил эти смешанные сигналы?’"
Интеллектуальная агрегация
Конечная цель – пометить эти неоднозначные ситуации как слепые пятна. Но это выходит за рамки простого подсчета приемлемых и неприемлемых действий для каждой ситуации.
Если, например, в ситуации скорой помощи система выполняла правильные действия девять раз из 10, то простым большинством голосов эта ситуация была бы отмечена как безопасная.
«Но поскольку неприемлемые действия встречаются гораздо реже, чем допустимые, система в конечном итоге научится предсказывать все ситуации как безопасные, что может быть чрезвычайно опасным», – говорит Рамакришнан.
С этой целью исследователи использовали алгоритм Давида-Скина, метод машинного обучения, обычно используемый в краудсорсинге для устранения шума этикеток.
Алгоритм принимает в качестве входных данных список ситуаций, каждая из которых имеет набор зашумленных меток «приемлемо» и «неприемлемо». Затем он объединяет все данные и использует некоторые вычисления вероятности для выявления закономерностей в метках прогнозируемых слепых пятен и шаблонов для прогнозируемых безопасных ситуаций. Используя эту информацию, он выводит единую агрегированную метку «безопасное» или «слепое пятно» для каждой ситуации вместе с уровнем достоверности в этой метке.
Примечательно, что алгоритм может обучаться в ситуации, когда он мог, например, работать приемлемо в 90% случаев, но ситуация все еще достаточно неоднозначна, чтобы заслужить «слепое пятно»."
В конце концов, алгоритм создает своего рода «тепловую карту», где каждой ситуации из первоначального обучения системы назначается от низкой до высокой вероятность быть слепым пятном для системы.
«Когда система развернута в реальном мире, она может использовать эту изученную модель, чтобы действовать более осторожно и разумно.
Если изученная модель предсказывает состояние как слепое пятно с высокой вероятностью, система может запросить у человека приемлемое действие, что обеспечит более безопасное выполнение », – говорит Рамакришнан.
