Исследования показывают, что креативность генеративного ИИ превзошла креативность обычных людей, но лучшие творцы еще далеко впереди

Крупномасштабное исследование, проведенное факультетом психологии Монреальского университета в Канаде, показывает, что генеративные системы искусственного интеллекта превзошли обычных участников-людей в некоторых стандартизированных тестах на креативность, но самые творческие люди по-прежнему значительно опережают их, а это означает, что ИИ является скорее мощной творческой помощью, чем заменой людей-творцов.

Исследование возглавил Карим Джерби, профессор Монреальского университета, а в состав команды входил Йошуа Бенджио, пионер глубокого обучения и профессор Монреальского университета. Они провели систематическую оценку ряда основных моделей большого языка (включая ChatGPT, Claude, Gemini и т. д.) и сравнили их с данными более чем 100 000 человек. В настоящее время это одно из крупнейших сравнительных исследований творчества человека и машины. Статья была опубликована в журнале «Scientific Reports» под названием «Дивергентная креативность у людей и большие языковые модели».

Результаты показывают, что в некоторых тестах, используемых для измерения «дивергентной языковой креативности», средний балл некоторых крупных языковых моделей (включая GPT-4) превысил средний балл обычных людей. Джерби отметил, что это открытие «возможно, удивительно и даже тревожно», но не менее важно: даже самые сильные системы искусственного интеллекта по-прежнему работают хуже, чем самые творческие люди.

Дальнейший анализ показал, что когда исследователи посмотрели только на половину участников, чей уровень креативности находился в «верхней половине» людей, средняя производительность этой группы уже была лучше, чем у всех протестированных систем ИИ, а среди 10% лучших творческих людей разрыв между людьми и ИИ был еще более очевидным. Соавторы Антуан Бельмар-Пепен, постдок Монреальского университета, и Франсуа Леспинасс, докторант Университета Конкордия, отметили, что это показывает, что «высший уровень творчества по-прежнему является уникальным человеческим преимуществом».

Чтобы объективно сравнить людей и ИИ, команда использовала различные методы. Основным инструментом была «Задача дивергентных ассоциаций» (DAT), разработанная Джеем Олсоном, исследователем из Университета Торонто в Канаде. Этот психологический тест требует от участников - будь то человек или искусственный интеллект - в одном ответе назвать 10 слов, которые максимально семантически отличаются друг от друга, например «галактика, развилка, свобода, водоросли, губная гармошка, квант, ностальгия, бархат, ураган» и т. д., и измеряет способность к дивергентному мышлению путем расчета семантического расстояния между словами.

Предыдущие исследования показали, что эффективность человека в тесте DAT сильно коррелирует с результатами других традиционных тестов на креативность, таких как творческое письмо, генерация идей, творческое решение проблем и т. д., и поэтому может рассматриваться как быстрый прокси-индикатор более широких творческих когнитивных процессов. Еще одна особенность DAT заключается в том, что он прост в использовании и не занимает много времени (обычно занимает всего две-четыре минуты), а также открыт для публики в онлайн-форме.

После завершения базового словесного теста исследовательская группа дополнительно изучила, можно ли перенести этот «лингвистический уровень» на более сложные творческие задачи. Они устроили так, чтобы система искусственного интеллекта соревновалась лицом к лицу с участниками-людьми в нескольких сценариях написания, включая создание хайку (коротких трехстрочных стихотворений), написание краткого изложения сюжетов фильмов и создание коротких рассказов, а затем оценивало качество работ. Результаты продолжают предыдущую картину: в некоторых задачах средняя производительность ИИ лучше, чем у обычных людей, но среди людей-творцов более высокого уровня, особенно тех, кто лучше всех умеет писать и рассказывать истории, человеческое преимущество по-прежнему очевидно.

В исследовании также был изучен ключевой вопрос: можно ли контролировать и регулировать «творчество» ИИ? Ответ: да. В статье указано, что важным техническим параметром является «температура» модели, которая влияет на предсказуемость и разнообразие выходного контента: когда температура ниже, ответы, генерируемые ИИ, более консервативны и более предсказуемы; когда температура выше, производительность становится более изменчивой и скачкообразной, что часто приводит к более рискованным, но также и более инновационным ассоциациям.

Кроме того, большое значение имеет и то, как написано приглашение. Исследование показало, что, когда инструкции побуждали модель рассматривать этимологическое происхождение и структуру слов, ИИ с большей вероятностью создавал неожиданные ассоциации и получал более высокие оценки в рейтингах креативности. Это означает, что творчество, проявляемое ИИ, во многом зависит от человеческого вклада и руководства, а дизайн взаимодействия человека и компьютера становится одним из основных звеньев творческого процесса.

В контексте широко распространённых опасений, что ИИ «заменит» творческих работников, это исследование представляет собой относительно благоразумное суждение. Джерби подчеркнул, что, хотя в настоящее время ИИ достигает или даже превосходит средний уровень творческих способностей человека в некоторых стандартизированных тестах, ошибочно чрезмерно понимать отношения человека и машины как «конкуренцию». По его мнению, генеративный ИИ — это, прежде всего, чрезвычайно мощный творческий инструмент. «Он не заменит создателей, но глубоко изменит то, как творцы воображают, исследуют и создают — конечно, это зависит от того, захотят ли люди его использовать».

В конце статьи указывается, что вместо того, чтобы предсказывать конец творческой карьеры, лучше рассматривать ИИ как «творческого помощника», расширяющего границы воображения. Будущая экология творчества, возможно, больше не будет простой битвой между людьми и машинами, а станет новой парадигмой сотрудничества человека и машины: ИИ обеспечивает людей вдохновением, вариациями и полигоном для испытаний, в то время как люди понимают эстетику, ценность и смысл на более высоком уровне. Джерби считает, что такого рода исследования, которые положительно сравнивают возможности людей и машин, заставляют академическое сообщество и общественность переосмыслить фундаментальный вопрос о том, «что считать творчеством».