По мере того, как искусственный интеллект становится все лучше в выполнении задач, когда-то исключительно в руках людей, таких как вождение автомобиля, многие видят в объединении интеллекта следующий рубеж. В этом будущем люди и ИИ станут настоящими партнерами в работе с высокими ставками, например, при проведении сложных хирургических операций или защите от ракет. Но прежде чем совместный интеллект сможет взлететь, исследователи должны решить проблему, которая разрушает сотрудничество: люди часто не любят или не доверяют своим партнерам по ИИ.
Теперь новое исследование указывает на то, что разнообразие является ключевым параметром, позволяющим сделать ИИ лучшим командным игроком.
Исследователи Лаборатории Линкольна Массачусетского технологического института обнаружили, что обучение модели ИИ математически «разнообразным» товарищам по команде улучшает ее способность сотрудничать с другим ИИ, с которым она никогда раньше не работала, в карточной игре Hanabi. Более того, и Facebook, и Google DeepMind одновременно опубликовали независимые работы, которые также привнесли разнообразие в обучение для улучшения результатов в совместных играх человека и ИИ.
В целом, результаты могут указать исследователям на многообещающий путь создания ИИ, который может хорошо работать и восприниматься товарищами по команде как хороший сотрудник.
«Тот факт, что мы все пришли к одной и той же идее — если вы хотите сотрудничать, вам нужно тренироваться в разных условиях, — захватывающий, и я считаю, что это действительно закладывает основу для будущей работы в области кооперативного ИИ», — говорит Росс. Аллен, исследователь группы технологий искусственного интеллекта лаборатории Линкольна и соавтор статьи с подробным описанием этой работы, которая недавно была представлена на Международной конференции по автономным агентам и мультиагентным системам.
Адаптация к различному поведению
Для разработки кооперативного ИИ многие исследователи используют Ханаби в качестве испытательного полигона. Ханаби предлагает игрокам работать вместе, чтобы складывать карты по порядку, но игроки могут видеть только карты своих товарищей по команде и могут давать друг другу лишь скудные подсказки о том, какие карты у них есть.
В предыдущем эксперименте исследователи из лаборатории Линкольна протестировали одну из самых эффективных в мире моделей искусственного интеллекта Hanabi на людях. Они были удивлены, обнаружив, что людям очень не нравится играть с этой моделью ИИ, называя ее сбивающей с толку и непредсказуемой командой. «Мы пришли к выводу, что мы упускаем что-то из человеческих предпочтений, и мы еще не умеем создавать модели, которые могли бы работать в реальном мире», — говорит Аллен.
Команда задалась вопросом, нужно ли обучать кооперативный ИИ по-другому. Используемый тип ИИ, называемый обучением с подкреплением , традиционно учится преуспевать в сложных задачах, обнаруживая, какие действия приносят наибольшую награду. Его часто обучают и оценивают по моделям, подобным ему самому. Этот процесс создал непревзойденных игроков с искусственным интеллектом в соревновательных играх, таких как Go и StarCraft.
Но чтобы ИИ был успешным сотрудником, возможно, он должен заботиться не только о максимизации вознаграждения при сотрудничестве с другими агентами ИИ, но и о чем-то более внутреннем: понимать и адаптироваться к сильным сторонам и предпочтениям других. Другими словами, ему необходимо учиться у разнообразия и адаптироваться к нему.
Как вы обучаете такой разносторонний ИИ? Исследователи придумали «Любую игру». Any-Play дополняет процесс обучения ИИ-агента Ханаби, добавляя еще одну цель, помимо максимизации игрового счета: ИИ должен правильно определять стиль игры своего партнера по обучению.
Этот стиль игры закодирован внутри тренировочного партнера как латентная или скрытая переменная, которую агент должен оценить. Он делает это, наблюдая за различиями в поведении своего партнера. Эта цель также требует, чтобы его партнер научился четкому, узнаваемому поведению, чтобы передать эти различия принимающему агенту ИИ.
Хотя этот метод создания разнообразия не нов для области ИИ, команда распространила эту концепцию на совместные игры, используя эти различные модели поведения как различные игровые стили.
«Агент ИИ должен наблюдать за поведением своих партнеров, чтобы идентифицировать полученный им секретный ввод, и должен приспосабливаться к этим различным способам игры, чтобы хорошо работать в игре. Идея состоит в том, что это приведет к тому, что агент ИИ будет хорошим. играть с разными стилями игры», — говорит первый автор и доктор философии Университета Карнеги-Меллона. кандидат Кин Лукас, который руководил экспериментами в качестве бывшего стажера в лаборатории.
Игра с другими в отличие от себя
Команда дополнила эту более раннюю модель Ханаби (та, которую они тестировали на людях в своем предыдущем эксперименте) с помощью тренировочного процесса Any-Play. Чтобы оценить, улучшил ли этот подход совместную работу, исследователи объединили модель с «незнакомцами» — более чем 100 другими моделями Hanabi, с которыми она никогда раньше не сталкивалась и которые были обучены с помощью отдельных алгоритмов, — в миллионах матчей для двух игроков.
Пары Any-Play превзошли все остальные команды, когда эти команды также состояли из партнеров, алгоритмически не похожих друг на друга. Он также показал лучшие результаты в партнерстве с оригинальной версией самого себя, не обученной Any-Play.
Исследователи рассматривают этот тип оценки, называемый перекрестной игрой между алгоритмами, как лучший показатель того, как совместный ИИ будет работать в реальном мире с людьми. Перекрестная игра между алгоритмами контрастирует с более часто используемыми оценками, которые проверяют модель на ее копиях или на моделях, обученных с помощью одного и того же алгоритма.
«Мы утверждаем, что эти другие показатели могут вводить в заблуждение и искусственно повышать очевидную производительность некоторых алгоритмов. Вместо этого мы хотим знать, «если вы просто бросите партнера ни с того ни с сего, не зная заранее, как он будет играть». , насколько хорошо вы можете сотрудничать? Мы считаем, что этот тип оценки наиболее реалистичен при оценке совместного ИИ с другими ИИ, когда вы не можете протестировать его на людях», — говорит Аллен.
Действительно, эта работа не проверяла Any-Play на людях. Тем не менее, исследование, опубликованное DeepMind одновременно с работой лаборатории, использовало аналогичный подход к обучению разнообразию для разработки агента ИИ для совместной игры Overcooked с людьми. «Агент ИИ и люди продемонстрировали удивительно хорошее сотрудничество, и этот результат заставляет нас поверить, что наш подход, который мы считаем еще более обобщенным, также будет хорошо работать с людьми», — говорит Аллен. Facebook аналогичным образом использовал разнообразие в обучении для улучшения сотрудничества между агентами искусственного интеллекта Hanabi, но использовал более сложный алгоритм, который требовал внесения изменений в правила игры Hanabi, чтобы быть послушным.
Являются ли межалгоритмические показатели перекрестной игры хорошими индикаторами человеческих предпочтений, все еще остается гипотезой. Чтобы вернуть человеческую точку зрения в процесс, исследователи хотят попытаться связать чувства человека по поводу ИИ, такие как недоверие или замешательство, с конкретными целями, используемыми для обучения ИИ. Выявление этих связей может помочь ускорить прогресс в этой области.
«Проблема с разработкой ИИ для лучшей работы с людьми заключается в том, что мы не можем позволить людям во время обучения рассказывать ИИ, что им нравится и не нравится. Это потребовало бы миллионов часов и личностей. поддающийся количественной оценке показатель человеческих предпочтений — и, возможно, разнообразие в обучении является одним из таких показателей — тогда, возможно, мы нашли способ справиться с этой проблемой», — говорит Аллен.
Теги: ИИ