Глава отдела безопасности психического здоровья OpenAI переходит к антропному согласованию team

Одним из самых спорных вопросов OpenAI в прошлом году было то, как именно модели должны реагировать, когда пользователи чат-ботов проявляют в разговорах признаки расстройства психического здоровья, и теперь Андреа Валлоне, руководитель исследований безопасности в этой области, ушла, чтобы присоединиться к Anthropic.

Ранее Валлоне писала в LinkedIn, что исследование, за которое она отвечала в OpenAI в прошлом году, «почти не имело прецедентов», которым можно было бы следовать. Основной вопрос: как модель должна реагировать, когда сталкивается с эмоциональной сверхзависимостью пользователей или ранними признаками кризиса психического здоровья? Она проработала в OpenAI три года, в течение которых создала и возглавила исследовательскую группу «модельной политики» для работы над внедрением GPT-4 и модели вывода следующего поколения GPT-5, а также участвовала в разработке различных основных отраслевых методов обучения безопасности, включая «вознаграждения на основе правил».

Сегодня Валлоне присоединился к команде согласования Anthropic, перед которой стоит задача выявления и понимания значительных рисков, которые могут представлять собой большие модели, и изучения способов борьбы с ними. Она будет подчиняться Яну Лейке — бывшему руководителю отдела исследований безопасности OpenAI, который ушел в мае 2024 года из-за опасений, что «культура и процессы безопасности OpenAI уступили место блестящему продукту», прежде чем перейти в Anthropic.

В прошлом году ведущие стартапы в области искусственного интеллекта продолжали вызывать общественные споры по поводу рисков, связанных с чат-ботами с искусственным интеллектом и психическим здоровьем пользователей. У некоторых пользователей психологические трудности еще больше усугубляются после длительного общения с чат-ботами, и их защита безопасности постепенно разрушается во время долгих разговоров. Были даже экстремальные случаи, когда подростки совершали самоубийство, а взрослые совершали убийство после того, как «признались» инструменту. Несколько случаев побудили семьи подать иски о неправомерной смерти против связанных компаний. Подкомитет Сената США также провел слушания по этому вопросу, попросив изучить роль и обязанности чат-ботов в таких инцидентах, а исследователям безопасности было предложено придумать более мощные решения.

Сэм Боуман, один из руководителей группы согласования Anthropic, заявил в LinkedIn, что он «гордится тем, насколько серьезно Anthropic относится к этому вопросу» и что компания усердно думает о том, «как должны вести себя системы искусственного интеллекта». Валлоне написала в новом посте на LinkedIn в четверг, что она «с нетерпением ждет продолжения своих исследований в Anthropic, сосредоточив внимание на формировании поведения Клода в новых ситуациях посредством согласования и точной настройки».