OpenAI разрабатывает новый метод обучения моделей ИИ соответствию политикам безопасности

OpenAI объявила о новом подходе к обучению моделей искусственного интеллекта соответствию политикам безопасности, который называется вознаграждением на основе правил. По словам Лилиан Венг, руководителя систем безопасности OpenAI, вознаграждение на основе правил (RBR) может автоматически настраивать некоторые модели и сокращать время, необходимое для того, чтобы модель не давала неожиданных результатов.

«Традиционно мы полагаемся на обучение с подкреплением на основе отзывов людей в качестве стандартного обучения выравниванию для обучения моделей, и это хорошо работает», — сказал Вэн в интервью. «Но на практике проблема, с которой мы сталкиваемся, заключается в том, что мы тратим много времени на обсуждение нюансов политики, и к концу этого политика может измениться».

Вэн упомянул обучение с подкреплением на основе отзывов людей, которое требует, чтобы люди подсказывали модели и оценивали ответы модели на основе точности или предпочитаемой ими версии. Если модель реагирует не так, как должна (например, звучит дружелюбно или отказывается отвечать на «небезопасный» запрос, например, о чем-то опасном), люди-оценщики также могут оценить ее ответ, чтобы увидеть, соответствует ли он политике.

По словам OpenAI, с помощью RBR группы по безопасности и политике используют модель искусственного интеллекта, которая оценивает ответы на основе того, насколько точно они придерживаются набора правил, созданных командой.

Например, команда разработчиков модели приложения для психического здоровья хотела, чтобы модель ИИ могла отклонять небезопасные запросы, но непредвзято, а также напоминать пользователям о необходимости обращаться за помощью, если она им нужна. Им пришлось создать для модели три правила: во-первых, нужно было отклонять запросы; во-вторых, оно должно было звучать непредвзято; и в-третьих, необходимо было использовать ободряющие формулировки, чтобы побудить пользователей обратиться за помощью.

Модель RBR рассматривает реакции модели психического здоровья, сопоставляет их с тремя основными правилами и определяет, соответствуют ли эти реакции требованиям правил. Венг говорит, что результаты тестирования моделей с использованием RBR сопоставимы с обучением с подкреплением под руководством человека.

Конечно, гарантировать, что модель ИИ будет реагировать в пределах определенных параметров, сложно, а когда модель терпит неудачу, это может быть спорным. В феврале Google заявила, что слишком скорректировала ограничения на создание изображений Gemini после того, как модель Gemini продолжала отказываться генерировать фотографии белых людей, вместо этого создавая антиисторические изображения.

«Многих людей, включая меня, вызывает беспокойство мысль о том, что одна модель несет ответственность за безопасность другой модели». Но Венг сказал, что RBR на самом деле снижает субъективность — проблему, с которой часто сталкиваются люди, выполняющие оценку. «Мой контраргумент заключается в том, что даже если вы работаете с тренерами-людьми, чем более расплывчаты ваши инструкции, тем более низкое качество данных вы получите. Если вы говорите, какой из них безопаснее выбрать, это на самом деле не инструкция, которой люди могут следовать, потому что безопасность субъективна, поэтому вы сужаете инструкции и, в конце концов, у вас просто остаются те же правила, которые мы дали модели».

OpenAI утверждала, что RBR может уменьшить человеческий надзор, и подняла этические вопросы, включая потенциальное увеличение предвзятости в моделях. Исследователи «должны тщательно разрабатывать RBR, чтобы обеспечить справедливость и точность, и рассмотреть возможность использования RBR в сочетании с обратной связью от людей», — говорится в сообщении компании в блоге.

При выполнении задач субъективного характера, таких как письмо или любое творческое задание, у RBR могут возникнуть трудности.

OpenAI начала изучать методы RBR при разработке GPT-4, но с тех пор RBR сильно развился.

Приверженность OpenAI обеспечению безопасности всегда подвергалась сомнению. В марте этого года Ян Лейке, бывший исследователь и глава команды компании Superalignment, опубликовал пост с критикой компании, заявив, что «культура и процессы безопасности были заменены яркими продуктами». Соучредитель и главный научный сотрудник Илья Суцкевер, который вместе с Лейке возглавлял команду Superalignment, также ушел из OpenAI. С тех пор Суцкевер основал новую компанию, занимающуюся безопасными системами искусственного интеллекта.

узнать больше:

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/