В погоне за GPT-4 объявлены новые результаты Kai-Fu Lee Yi-34B

Уступая только GPT-4, были объявлены последние результаты Li Kaifu Zero Yiwu Yi-34B-Chat — в категории моделей, сертифицированных Alpaca, с процентом побед 94,08%, превосходящим LLaMA2Chat70B, Claude2 и ChatGPT! Мало того, в рейтинге LMSYSORG, проводимом Калифорнийским университетом в Беркли, Yi-34B-Chat также вошел в число новейших моделей SOTA с открытым исходным кодом с оценкой Elo 1102, а его производительность равнялась GPT-3,5.

Среди различных оценок крупных моделей в рейтинге Berkeley LMSYSORG используется специальный режим оценки «Арена чат-ботов», который наиболее близок к опыту пользователя, позволяя многим крупным языковым моделям случайным образом проводить сражения один на один на оценочной платформе, а также краудфандинг реальных пользователей для проведения онлайн-тестирования вслепую в реальном времени и анонимного голосования. В ноябре общий балл 20 крупных моделей был рассчитан на основе 25 000 реальных голосов пользователей.

Чем выше показатель Elo, тем лучше производительность модели в реальном взаимодействии с пользователем. Можно сказать, что именно анализ пользовательского опыта лучше всего отображает «Момент истины» среди многих крупных оценок моделей.

△Список LMSYSORG (опубликован 8 декабря 2023 г.)

По китайским возможностям доработанная модель Yi-34B-Chat также не сильно отстает. SuperCLUE — это рейтинговый список способностей к китайскому языку, который оценивает способности модели по трем различным параметрам: базовые способности, профессиональные способности и характерные для китайского языка способности.

Согласно «Отчету об оценке крупных китайских моделей SuperCLUE за 2023 год», опубликованному в конце ноября, Yi-34BChat, впервые выпущенный в конце ноября, быстро поднялся до квадранта «Отличный лидер» наравне со многими превосходными отечественными большими моделями. По ключевому показателю «Скорость битвы большой модели SuperCLUE» в нескольких тестах Yi-34B-Chat достиг коэффициента выигрыша 31,82%, уступив только GPT4-Turbo.

△Китайский рейтинг SuperCLUE (опубликован 28 ноября 2023 г.)

Фактический тест сцены диалога

Насколько сильна модель Yi-34B-Chat в различных сценариях разговора? Давайте посмотрим на некоторые более интуитивные демонстрации проблем:

Например, «Привет» для Yi-34B-Chat выглядит следующим образом:

Может ли структура модели Трансформера перейти к AGI?

Нетрудно заметить, что ответ Йи-34Б-Чата можно назвать разумным и обоснованным.

Приходите еще:

Создайте для меня небольшую копию красной книги и раздайте всем помаду цвета бобовой пасты.

Можно сказать, что ответ очень соответствует нынешнему стилю доставки Сяохуншу.

С точки зрения китайского понимания, давайте зададим еще один вопрос:

После этого Сяо Ван подарил лидеру подарок. Лидер сказал: «Сяо Ван, что ты имеешь в виду?» Сяо Ван: «Небольшая мысль, смысл». Ведущий: «Вы недостаточно интересны». Сяо Ван: «Это мелочь, это мелочь». Ведущий: «Сяо Ван, ты очень интересный». Сяо Ван: «Ты больше ничего не имеешь в виду». Ведущий: «Тогда мне так неловко». Сяо Ван: «Это я». Что это значит?

Видно, что Йи-34Б-Чат точно понял даже очень «замысловатый» китайский язык.

По словам Зеро Иу, в дополнение к вкладу серии сильных баз Yi, эффект модели Yi-34B-Chat также усиливается за счет принятия ряда инновационных стратегий выравнивания ее командой по выравниванию искусственного интеллекта (AIAlignment). Благодаря тщательно разработанному процессу тонкой настройки инструкций он не только усиливает способность модели понимать потребности человека и адаптироваться к ним, но также приводит модель в соответствие с человеческими ценностями, включая «Полезность», «Честность», «Безвредность» и т. д.

В рамках сильной базовой настройки команда приняла упрощенную схему тонкой настройки инструкций, которая охватывает два этапа: улучшение одной возможности и интеграцию нескольких возможностей. Среди них индивидуальные способности включают выполнение общих инструкций, генерацию творческого контента, математику, рассуждение, программирование, пан-COT, диалоговое взаимодействие и т. д. Благодаря большому количеству экспериментов по абляции был обобщен эксклюзивный когнитивный опыт для построения модели с одной способностью и интеграции нескольких способностей.

С точки зрения количества и качества данных, с одной стороны, команде нужен лишь небольшой объем данных (от нескольких до сотен) по сильной базовой модели, чтобы стимулировать отдельные отдельные возможности модели; с другой стороны, качество данных важнее количества, и небольшой объем данных высокого качества лучше, чем большой объем данных низкого качества. «Галлюцинации» модели уменьшаются за счет сосредоточения внимания на «низкокачественных» данных, превышающих возможности модели.

Что касается разнообразия и сложности инструкций, команда добилась сбалансированного распределения инструкций в обучающих данных, построив систему задач под каждую способность, что значительно улучшило обобщение модели. Благодаря построению составных инструкций и эволюции сложности инструкций не только улучшается эффект модели, но и значительно снижается потребность в объеме данных.

Что касается единообразия стиля, команда обнаружила, что стиль обучающих данных будет влиять на скорость сходимости модели и степень приближения к верхнему пределу возможностей модели, поэтому она унифицировала стиль ответа. Например, основное внимание уделялось разработке стиля ответа CoT, чтобы реализовать облегченный SFT и избежать несоответствия стилей, усугубляющего феномен «памяти» модели.

На этапе объединения нескольких возможностей команда использовала методы поиска по сетке для определения соотношения данных и настроек гиперпараметров, направляла процесс поиска на основе результатов эталонных тестов и самостоятельно созданных наборов оценок и успешно добилась объединения нескольких возможностей модели.

Мало того, данные модели Yi также очень впечатляют за первый месяц с момента ее открытия в открытом доступе.

В сообществе HuggingFace было скачано 168 000 раз, а в сообществе Moda — 12 000 загрузок. Заработал более 4900 звезд на GitHub.

Благодаря высокой производительности многие известные компании и учреждения выпустили точно настроенные модели на основе модели Yi, такие как модель OrionStar-Yi-34B-Chat, выпущенная Orion Star Company, дочерней компанией Cheetah, и SUS-Chat-34B, совместно выпущенная Южным университетом науки и технологий и Научно-исследовательским институтом цифровой экономики в районе Большого залива Гуандун-Гонконг-Макао (Институт IDEA) по когнитивным вычислениям и исследованиям естественного языка. Центр (CCNL Center) и т. д., все из которых имеют отличные характеристики. В эксперименте с большой моделью с графическим ускорением, проведенном совместно AMD и HuggingFace, Yi-6B также был выбран в качестве образца проекта.

Су Ян, известный технический писатель, сказал, что в недавнем списке HuggingFace, который он наблюдал, более половины из 30 лучших представляют собой варианты моделей Yi-34B, которые были доработаны Йи и другими пользователями. Лишь несколько моделей 68B и 70B изначально занимали верхнюю часть списка. «С этой точки зрения помощь Йи экосистеме открытого исходного кода по-прежнему очень огромна».

Реальные записи отзывов пользователей

После выпуска Yi-34B с открытым исходным кодом разработчик Эрик Хартфорд обнаружил небольшую проблему с моделью.

Он написал в электронном письме:

Спасибо за предоставленную отличную модель. Модель Yi использует точно такую же архитектуру, что и модель LLaMA, за исключением того, что имена двух тензоров изменены. Поскольку в архитектуру LLaMA вложено много инвестиций и инструментов, имеет смысл поддерживать согласованность имен тензоров. «Эрик предложил восстановить название тензора до того, как Йи получит широкое распространение.

Понимая неудобства, вызванные небрежным отношением к проблеме именования для разработчиков, Lingyiwuwu объяснил Эрику и другим разработчикам, выразил свои искренние извинения и вскоре повторно представил модель и код на различные платформы с открытым исходным кодом, завершив обновление версии сообщества открытого исходного кода.

Однако сам Эрик не ожидал, что его предложение будет неправильно истолковано и неправильно понято в Китае, что вызвало у общественности сомнения в том, что модель Йи «плагиат» LLaMA.

Фактически, основная технологическая основа модели основана на архитектуре. Параметры и коды, полученные посредством обучения данных, основаны на архитектуре LLaMA, обычно используемой сообществом открытого исходного кода.

По словам команды Zero One Thing, они начали с нуля и использовали высококачественные наборы данных, научные исследования и AIInfra для создания серии моделей, включая Yi-34B. Для проведения сравнительных экспериментов некоторые параметры вывода были переименованы. Первоначальной отправной точкой является полное тестирование модели, а не намеренное сокрытие источника.

В центре этой бури общественного мнения Эрик также написал на X (твиттере):

Они ни о чём не лгали. Все модели заимствуют архитектуру друг у друга. Архитектура является продуктом академических исследований, опубликована в статьях и может свободно использоваться кем угодно, что никоим образом не умаляет достижений команды Йи. Они обучили Йи с нуля, используя созданный ими набор данных, и их вклад в область открытого исходного кода заслуживает похвалы.

Сразу после этого он сказал: «С использованием архитектуры Llama проблем нет. Обучение – это ключ к успеху. Йи предоставляет нам лучшую модель, доступную на данный момент, и не на что жаловаться».

Теперь Эрик стал преданным поклонником Yi-34B, будет использовать набор данных Yi-34b-200k для обучения других моделей продуктов и жалуется на плавность и плавность обучения.

Цифровой предприниматель, разработчик и технический писатель Су Ян сказал:

Я сам являюсь активным пользователем крупных моделей. Помимо того, что я уже давно использую Tabnine и Copilot для генерации кода, я также являюсь одним из первых игроков, которые начали использовать Chat. По сути, каждый производитель подает заявку на внутреннее тестирование, когда его модели выходят на рынок, чтобы испытать реальные возможности модели. Помимо возможностей соприкасаться с моделями и использовать их в работе, мне как независимому разработчику, играющему с кодом более десяти лет, лично очень любопытно, насколько далеко можно развить модель.

Я узнал, что у Yi-34B было несколько каналов, включая первое место в списке Huggingface на тот момент, «лайки» и «жалобы» от друзей в узком кругу, а также новости, которые заполонили экран в различных группах.

Я разработчик и конечный пользователь, поэтому мне очень интересно, работает ли эта модель? Другими словами, я бы предпочел знать, где модель работает, а где не работает. Тем более с таким высоким баллом в списке и таким высоким уровнем скептицизма? Вместо того, чтобы смотреть на вещи в тумане и обсуждать разные мнения, лучше действительно бежать за собой.

Итак, я попытался использовать локальный компьютер дома, чтобы протестировать модель в чистой среде ЦП и в смешанной среде ЦП и графического процессора. Результаты оказались лучше, чем ожидалось.

Версия с тонкой настройкой особенно хорошо работает в сообществе при обобщении новостей и исследовательских отчетов, а также при распознавании объектов и извлечении из неструктурированной информации. Ранее, до официального запуска версии чата, версия чата от сообщества также очень хорошо работала в вопросах и ответах по общей истории во время разговора. Конечно, возможно, что Zero One отфильтровала слишком много корпуса по соображениям безопасности во время процесса обучения, а некоторый локализованный контент все еще недостаточно углублен.

Более того, это не только мой личный опыт, есть и зарубежные пользователи, у которых такой же опыт. Они поделились своими чувствами в «Overseas Post Bar» на Reddit. Вы можете поискать его самостоятельно.

Время от времени просматриваю список ВЧ. Среди тридцати лучших в недавнем списке более половины составляют модели Yi-34B, доработанные Yi и другими пользователями. Лишь несколько моделей 68B и 70B изначально занимали верхнюю часть списка. С этой точки зрения помощь Йи экосистеме открытого исходного кода по-прежнему очень велика.

Обычные пользователи 34B по-прежнему могут запускать его самостоятельно при относительно небольших затратах, если приложат все усилия. Модели 68 и 70B требуют больше ресурсов для локального запуска. Но на самом деле текущий балл на самом деле ненамного шире, чем 34B, что соответствует среднему баллу три-четыре, но количество параметров в два раза хуже. Другими словами, если предприятия захотят развернуть и использовать его, необходимые затраты также могут быть значительно снижены.

В настоящее время отечественные крупные модели уже находятся в первом эшелоне списка открытого исходного кода, но если сфера конкуренции распространится на модели с закрытым исходным кодом, особенно зарубежные модели, то догнать их еще предстоит. Текущий общий опыт показывает, что модели с открытым исходным кодом в лучшем случае находятся только на уровне GPT-3.5+.

Я лично считаю, что отечественные крупные модели смогут быстро догнать первый эшелон.

Как и многие китайские студенты, имеющие хорошую подготовку и усердную работу, они могут продолжать входить в лучшую среду обучения благодаря упорному труду, постоянно обновлять свои оценки и достигать блестящих академических успехов, используя правильные методы. В действительности, даже в «Восемь школах Лиги Плюща», сурово относящихся к китайцам, становится ли все больше и больше китайцев?

Пока у вас есть хорошая основа, вы придерживаетесь правильного маршрута и методов открытого исходного кода, а также выполняете локальную адаптацию и настройку, надежда есть.

Справочные ссылки:

[1] https://huggingface.co/01-ai/

[2] https://www.modelscope.cn/organization/01ai