Во второй день мероприятия OpenAI «12 дней» мы стали свидетелями официального релиза технологии ReinforcementFine-Tuning и увидели демонстрацию ChatGPTPro. Хотя Сэм Альтман не присутствовал на месте происшествия лично, его команда предоставила нам углубленный анализ этой технологии, который указывает на то, что настройка модели ИИ может привести к серьезному прорыву.

12 примеров настройки экспертной модели

Сегодняшняя конференция приносит объявление, которое может показаться незаметным, но может оказать существенное влияние на жизнь людей.

Сегодняшний анонс стал приятным сюрпризом для корпоративных пользователей. Организации смогут настроить o1mini в соответствии со своими потребностями посредством усиленной точной настройки с использованием минимального количества данных.

Некоторые из вас, возможно, уже знакомы с API тонкой настройки диспетчерского управления, запущенным OpenAI в начале прошлого года. Контролируемая точная настройка — это мощный инструмент, который позволяет модели имитировать функции, обнаруженные во входном тексте или изображениях. Этот метод очень полезен в сценариях, где необходимо настроить тон, стиль или формат ответа модели. Однако для тонкой настройки надзора требуются большие объемы данных в специализированных областях. Преимущество интенсивной тонкой настройки состоит в том, что она позволяет быстро скорректировать метод рассуждения модели с помощью очень небольшого количества высококачественных примеров. Такого рода эффективности было трудно достичь при предыдущей «тонкой настройке» надзорной деятельности.

Принцип работы точной настройки подкрепления таков: когда модель сталкивается с проблемой, ей дается определенное пространство для размышления для ее решения, а затем оценивается окончательный ответ модели. Благодаря механизму обучения с подкреплением идеи, ведущие к правильным ответам, усиливаются, а идеи, ведущие к неправильным ответам, ослабляются.


Соответствующие документы, предоставленные AIoverview:Как выяснилось, это был доклад ByteDance на саммите ACL2024 в январе этого года, и он был не первым в своем роде для OpenAI.


Согласно статье, точная настройка подкрепления (ReFT) начинается с контролируемой тонкой настройки (SFT), которая обычно длится одну-две эпохи. На этом этапе модель приобретает базовую способность правильно решать математические задачи. После этого ReFT выводит обучение модели на новый уровень, применяя алгоритмы обучения с подкреплением (RL) с использованием таких методов, как оптимизация проксимальной политики (PPO). Этот продвинутый этап позволяет модели исследовать и изучать множество правильных решений и методов рассуждения. В этом контексте ReFT эффективен, поскольку использует существующие обучающие данные, которые уже содержат правильные ответы.

Эти ответы формируют основу для вознаграждений во время обучения PPO, устраняя необходимость в дополнительной, отдельно обучаемой системе вознаграждений. Это важное отличие от других методов, таких как RLHF,Последний полагается на вознаграждения, определяемые на основе данных, аннотированных человеком.


Источник скриншота: https://arxiv.org/pdf/2401.08967v1

Стоит отметить, что OpenAI заявила, что на основе тонкой настройки подкрепления, используя всего несколько десятков примеров, модель может освоить способность рассуждать новыми и эффективными способами в конкретной области.

Фактически «это можно сделать всего на 12 примерах, чего невозможно добиться при обычной доводке». На пресс-конференции Джули Вонг, исследователь OpenAI, подчеркнула это.

Эффект от расширенной тонкой настройки также потрясающий. Оценка не только выше, чем у o1mini, но и превосходит только что выпущенную вчера версию o1.


Генеральный директор OpenAI Сэм Альтман, хотя и не присутствовал на сегодняшней прямой трансляции, обсудил анонс платформы X. Он заявил, что новая функция «работает потрясающе и станет одним из моих самых больших сюрпризов в 2024 году».


Конечно, Альтман заинтересован в продвижении новых идей своей компании, но, учитывая, что в 2024 году OpenAI принесет много интересного, и он назвал это одним из самых больших сюрпризов года, это, безусловно, высокая похвала.

По словам спикеров OpenAI, ученые, разработчики и исследователи могут настраивать мощные модели вывода o1 на основе своих собственных данных, а не полагаться исключительно на общедоступные данные.

Практики в различных областях могут создавать экспертные модели на основе o1 посредством обучения с подкреплением, тем самым повышая общий профессиональный уровень в этой области. Это знаменует собой ключевой шаг в настройке ИИ, позволяющий моделям ИИ показывать более высокую производительность в профессиональных областях.

Живая демонстрация улучшенной тонкой настройки для улучшения больших моделей.

На месте исследователи OpenAI использовали вычислительного биолога из лаборатории Беркли Джастина Риза, чтобы продемонстрировать, как расширенная точная настройка может значительно улучшить производительность o1mini. В частности, дается список симптомов и модели предлагается предсказать, какой ген может вызвать генетическое заболевание.

Сначала посмотрите на набор данных, используемый для обучения модели, и на систему оценки, используемую для оценки модели. Команда Джастина собрала набор данных, содержащий около 1100 примеров. Набор обучающих данных представляет собой просто файл JSON-L. Каждая строка в файле представляет собой пример, на котором вы хотите обучить модель. Дополнительно в демо-версию загружаются проверочные данные.

"Между наборами проверочных и обучающих данных нет совпадения с точки зрения правильных генов. Это означает, что модель не может жульничать или не может научиться просто запоминать список симптомов и связывать их с генами, она должна обобщать набор обучающих данных на набор проверочных данных", - объясняет Джон Аллард из Исследовательского института OpenAI.


Затем начните обучение в обучающей инфраструктуре OpenAI. Вы можете выбрать обучающий набор и набор проверки в веб-интерфейсе и настроить их соответствующим образом.


Наконец, оцените полученную точно настроенную модель, чтобы увидеть, насколько она лучше базовой модели, с которой вы начали. Функция оценщика заключается в том, чтобы просто взять выходные данные модели и правильный ответ, сравнить их и вернуть оценку от 0 до 1. 0 означает, что модель вообще не получила правильного ответа, а 1 означает, что модель получила правильный ответ.


Аллард сказал, что интенсивная точная настройка может занять от нескольких часов до нескольких дней, поэтому он продемонстрировал результаты предыдущего запуска на том же наборе данных. Модель показывает, что наиболее вероятным геном-кандидатом также является TSC2, и правильный ответ действительно тот же. Следовательно, модель может передаваться на topat1, topat5 и topatmax.


Кроме того, в процессе тонкой настройки вы также можете наблюдать за изменением тенденций показателей эффективности модели:


В ходе теста OpenAI настроил работу трех разных моделей: первая — для вышедшей вчера модели o1, вторая — для o1mini и последняя — расширенная и доработанная o1mini. Как можно видеть, o1mini набрал 17% примерно на 200 наборах данных, o1 справился лучше и достиг 25%, а точно настроенный o1mini набрал 31%.


Заключение

12-дневное мероприятие OpenAI приостановлено на выходные. Не каждое объявление будет блокбастером, и сама OpenAI заявила, что можно ожидать новых вещей «больших и маленьких».

Ниже приводится список того, что зарубежные СМИ смогут увидеть на мероприятии на следующей неделе (будут некоторые сюрпризы): генерация видео Sora-ai, обновление Canvas (может включать изображения), анализ видео GPT-4o, генерация изображений GPT-4o, расширенные возможности голоса и видео и т. д.


Взаимодействие Ультрамена с пользователями сети в Твиттере, похоже, подразумевает, что следующие 10 прямых трансляций будут сообщать о последних событиях Соры.