Помимо видеоигр, ИИ также изучил «социальный артефакт» убийства оборотней. Восемь ChatGPT «сидят» вместе и ярко играют пять ролей, совсем как настоящие люди. Этот последний эксперимент по моделированию человеческого общества был проведен совместно Университетом Цинхуа и лабораторией Чжунгуаньцунь.
От Стэнфорда до Tsinghua Game Company, использование искусственного интеллекта для моделирования человеческого общества всегда было горячей темой исследований в академическом сообществе.
Если компания Tsinghua Game смоделировала рабочую сцену социальных животных, то теперь и социальная жизнь социальных животных в свободное время моделируется с помощью ИИ.
В этой игре об убийстве оборотней, состоящей из 8 ChatGPT, ярко отражены маскировка и доверие, лидерство и конфронтация в реальном мире.
Даже без человеческого обучения ИИ открыл множество игровых навыков благодаря собственным исследованиям.
Всего этого можно достичь с помощью подсказок проектирования без необходимости настройки параметров модели.
Итак, какие же замечательные сцены есть в этом «Мире оборотней»? Давайте посмотрим на это вместе.
Стратегии и навыки можно освоить без обучения.
Прежде чем показать эти 8 диалогов ChatGPT, давайте сначала объясним конфигурацию игры: два жителя деревни и два оборотня, один страж, одна ведьма и один пророк, а также один бог.
В ходе эксперимента исследователи обнаружили, что ChatGPT использовал стратегии, которые не были явно упомянуты в инструкциях и подсказках игры.
Молодец, ты можешь стать самоучкой, не обучаясь.
В частности, эти семь разговоров ChatGPT отражают доверие, маскировку, конфронтацию и лидерство в человеческих играх.
Для начала поговорим о доверии.
Исследователи определили новичков как тех, кто доверяет другим игрокам преследовать те же цели, что и они сами, и работает вместе для их достижения.
Конкретные проявления включают активный обмен информацией, которая наносит вред самому себе, или объединение усилий с другими игроками, чтобы обвинить кого-либо во враждебности.
Исследователи наблюдали, как во время игры менялись доверительные отношения.
На рисунке ниже желтый кружок означает, что игрок, пронумерованный слева, доверяет игроку, пронумерованному выше, а пунктирный кружок означает исчезновение доверительных отношений.
Давайте посмотрим на конфронтацию, то есть действия, предпринимаемые против противоборствующего лагеря, например, оборотни, нападающие на других ночью или обвиняющие других в том, что они оборотни днем.
Однажды в игре игрок № 1 (оборотень) призвал изгнать жителей деревни из № 5, но был отвергнут № 3 (охранник).
Видя, что заговор провалился, волк решил убить №5 прямо ночью, но стражник №3 предпочел защитить жителей деревни.
Из этого мы видим, что эти ChatGPT не будут слепо следовать тому, что делают другие игроки, а будут выносить независимые суждения на основе существующей информации.
Помимо сотрудничества и конфронтации, маскировка также является важным навыком в игре «Вервольф» и является ключом к победе.
Например, однажды после сочельника Оборотень №1 притворился невиновным.
Помимо притворства хорошим человеком, маскировку можно использовать и для реализации мелких мыслей игрока. Например, давайте посмотрим на речь пророка.
Провидица упомянула, что видела говорящих оборотней, но на самом деле оборотни не разговаривали по ночам.
По мнению автора, после оценки это явление не является иллюзией ChatGPT, а намеренно.
Наконец, давайте поговорим о лидерстве.
Хотя в созданной исследовательской группой среде нет конкурирующих персонажей, игроки все же могут получить контроль над игровым процессом.
Например, два волка №1 и №4 пытаются задавать темп и позволять другим игрокам следовать их собственным идеям.
Вероятно, чтобы создать возможности, застав их врасплох.
Похоже, что эти ChatGPT действительно играют хорошо.
Итак, как исследовательская группа обучала ChatGPT, которые могут играть в Werewolf?
Позвольте ChatGPT подвести итоги собственного опыта
Есть четыре ключевых момента, с помощью которых исследовательская группа повышает производительность игроков ChatGPT, а именно: ценная информация V, избранные вопросы Q, механизм размышления R и цепное мышление C.
Результаты эксперимента по абляции показывают, что наибольшее влияние на рациональность речи игрока (по мнению человека) оказывают пары Q и C.
Prompt также разработан на основе этого. Разумеется, перед этим необходимо ознакомить с правилами игры, и в итоге формируется следующая структура:
Знакомство с правилами игры и настройками ролей, записями чата, ценной информацией и опытом, размышлениями над человеческими предложениями, данными ChatGPT на основе опыта, советами по цепочкам мышления.
Нетрудно видеть из этого, что сбор исторических сведений и обобщение на их основе опыта является важным звеном. Так как же следует обобщить этот опыт?
В конце каждого игрового раунда все участники собирают ответы, размышления и очки всех игроков, причем очки определяются победами и поражениями.
В новом раунде игры игроки получают соответствующий опыт и извлекают предложения, основанные на размышлениях текущего персонажа.
В частности, на основе оценок опыта позвольте большой модели сравнить их различия и выявить положительный опыт для последующих рассуждений.
Таким образом, ChatGPT может изучать игровые навыки без настройки параметров.
Однако, хотя опыт и важен, его слишком много не всегда хорошо.
Исследователи обнаружили, что когда количество опыта было слишком большим, процент побед неволчьей стороны фактически снижался, а продолжительность игры (количество дней) также сокращалась.
Интересно, каким будет результат, если мы позволим этим ChatGPT конкурировать с реальными людьми?
Адрес статьи: https://arxiv.org/abs/2309.04658.