Интеллект уровня PhD OpenAI действительно реализован! Доктор философии по физике UCI. на самом деле протестировал o1 и обнаружил, что код его докторской диссертации, на написание которой у него ушёл год, был фактически реализован ИИ за один час. Модель o1 настолько мощна, что может напрямую создавать код докторской диссертации! Кайл Кабасарес, доктор философии. по физике из Калифорнийского университета в Ирвайне (UCI), обнаруженный после тестирования o1preview+mini:


Я работаю над докторской диссертацией. код около года, и o1 фактически завершил его за один час.


Он сказал, что примерно после шести запросов o1 создал работающую версию кода Python, описывающую содержание раздела «методы» исследовательской работы.

Хотя структура кода, сгенерированная ИИ, имитирует реальные функции кода Кабасареса, она использует «синтетические данные», а не настоящие астрономические данные.


Адрес статьи: https://iopscience.iop.org/article/10.3847/1538-4357/ac7a38/meta.

Однако шокирует то, что o1 может выводить сложные коды за такое короткое время.

В правом нижнем углу видео Кабасарес неоднократно выкрикивал «омойбог», демонстрируя различные неописуемые движения и выражения лиц, которые шокировали его до такой степени, что он усомнился в своей жизни.


Как только видео появилось на YouTube, оно вызвало бурные обсуждения в Интернете, пользователи сети назвали его слишком сумасшедшим.


Какое совпадение, уровень IQ o1 превысил 120 баллов в последнем тесте Mensa IQ.

35 вопросов IQ, 25 из которых ответили правильно, опередив другие модели на несколько блоков.


Однако это всего лишь предварительная версия модели o1.

Исследователь OpenAI Дэвид Дохан однажды опубликовал статью, в которой предполагал, что через месяц появится новая обновленная версия модели o1.


К тому времени мы все еще не знаем, насколько потрясающими будут выступления O1? !

Кандидатская диссертация по физике: ИИ может создать 200 строк кода за 1 час

В 2022 году Кабасарес, доктор философии. Кандидат физики, опубликовал эту статью в Астрофизическом журнале как первый автор по измерению массы черных дыр путем моделирования астрономических данных.


Конечно, это исследование — это больше, чем просто написание кода, но реализация этого кода стала ключевым прорывом для доктора Кабасареса в первый год его работы.

Можно сказать, что в первый год его докторских исследований (июль 2018 — апрель 2019) потребовалось много времени, чтобы первая версия этого кода работала корректно.

Вот почему o1 смог создать работоспособный код Python за один час, что впечатлило Кабасареса.


В видео, увидев код, выводимый o1, Кабасарес сделал паузу на некоторое время, прежде чем начать объяснять.


Он предоставил ChatGPTo1 содержание «методической» части статьи (т. е. раздела 4) и предложил ему прочитать мою статью и написать фрагмент работающего кода Python на основе предоставленной информации.


Он много раз подчеркивал, что не показывал свой код o1.

На странице беседы ChatGPT Кабасарес показал всем и подсчитал, что o1 выполнил 200 строк кода под 6 подсказками.


Однако он также предупредил, что на самом деле это требует дополнительной работы с нашей стороны. Как и график кривой в статье, его необходимо заполнить в другом программном обеспечении, например Galaxy Image Software.


Когда пользователь сети спросил, может ли o1 пройти обучение, используя ваш собственный код?

Кабасарес считает, что 200 строк кода, выводимые o1, сильно отличаются от его собственных 1100 строк кода. Это «самая простая версия» бумажного кода.


Ночной тест, o1 бросает вызов университетским и докторским вопросам по физике

С этой целью Кабасарес опубликовал второе видео, чтобы объяснить всем, что o1, возможно, не прошел обучение работе с данными.



Стоит отметить, что частные документы, которые он получил из офиса, представляли собой задачи по астрофизике, разработанные самим профессором.

Все эти вопросы были решены Кабасаресом во время работы над докторской диссертацией. и не были опубликованы в Интернете.

Специально для o1 он создал набор тестов, состоящий всего из 4 вопросов.


В отсутствие обучающих данных результаты, выдаваемые o1, само собой разумеются. Он даже ответил на некоторые вопросы всего за 16 секунд.


Напомним, OpenAICTOMира Мурати заявила в интервью, что новые модели после GPT-4 достигнут уровня интеллекта PhD.

Текущие результаты o1 уже дают решающее значение.


Соревнования по программированию кода, уровень магистра

Как директор по исследованиям OpenAI и нынешний тренер команды IOI США, Марк Чен поделился последним прогрессом модели o1 на соревнованиях Codeforces.

Вчера во время соревнования Codeforces в реальном времени игрок по имени AryanDLuffy использовал для участия в соревновании модель o1-mini, и результаты были просто потрясающими.

По словам Маркчена, он достиг «производительности, близкой к мастер-уровню».


AryanDLuffy сообщил, что он не проводил каких-либо оперативных разработок, он просто сформулировал проблему и посоветовал модели использовать C++ для решения проблемы.

Среди 7 вопросов o1-mini столкнулся с трудностями только в B2, D и E2. Среди них D и E2 были двумя вопросами, на которые многие игроки из топ-50 не смогли ответить. На эти два вопроса было также наименьшее количество ответов.

В конце концов, o1-mini помог AryanDLuffy набрать 3922 балла, заняв 277-е место среди более чем 160 000 участников, что составляет верхние 0,17%.

Это намного превышает результаты собственных тестов OpenAI. Модель o1 превзошла только 89% конкурентов-людей в симулированных соревнованиях Codeforces.


Рейтинг из 277 позиции улучшился на 158 позиций по сравнению с предыдущим рекордом AryanDLuffy, достигнув самого большого улучшения за четыре года.


В связи с этим Маркчен и многие пользователи сети считают, что вопросы конкуренции IMO и Codeforces могут быть использованы в качестве новых эталонных тестов LLM. Однако организаторов Codeforces беспокоит другое.

Для этого основатель конкурса Майк Мирзаянов специально сформулировал новое правило: запрещается использовать различные модели, такие как GPT, Gemini, Gemma, Llama и Claude, для решения задач по программированию в соревновании Codeforces.

Однако это новое правило не требует от участников полностью отказаться от ИИ. Они по-прежнему могут позволить модели помочь в переводе постановки задачи или обратиться за грамматической помощью и небольшими предложениями по кодированию от Copilot.

Короче говоря, основная логика и алгоритм задачи конкуренции, а также диагностика и отладка ошибок должны выполняться игроками-людьми независимо, и CF также будет проводить обнаружение мошенничества. В неконкурентных задачах использование инструментов ИИ совершенно не ограничено.

Однако некоторые пользователи отметили, что обнаружение мошенничества чрезвычайно сложно реализовать, и участники могут «уйти от обнаружения», просто изменив код, сгенерированный ИИ. Будущее соревнований по программированию во многом будет зависеть от того, смогут ли сами конкурсанты сдержать свое слово.

CF также заявила, что продолжит уделять внимание развитию технологий искусственного интеллекта и своевременно корректировать правила по мере необходимости.


В своем блоге Мирзаянов назвал прогресс нейронных сетей «техническим чудом», поскольку еще недавно эти модели с трудом справлялись с простейшими задачами на соревнованиях, а теперь достигли высот, которые невозможно игнорировать.

Он сказал: «У нас есть основания полагать, что этот прогресс будет продолжаться, и ИИ может продолжать совершать новые прорывы в области соревнований по программированию».

Фактические результаты теста Тао Чжэсюаня

Помимо Codeforces, Тао Чжэсюань также сказал, что из-за всеобщего интереса к его предыдущим тестам,

Первый эксперимент – найти терминологию.


В 2010 году я искал правильный термин для «мультипликативный интеграл», но в то время не смог найти его в поисковой системе. Поэтому я обратился к вопросу MathOverflow и получил удовлетворительный ответ от эксперта:


Сегодня, 14 лет спустя, Тао Чжэсюань снова задал тот же вопрос модели o1. Формулировка вопроса была почти такой же, как в сообщении на MathOverflow.

По сравнению с ответами экспертов-людей, ответы o1 более полные и совершенные. Включены не только 5 возможных терминов, но также прилагаются соответствующие математические представления, области применения и ссылки.

Тао Чжэсюань сказал, что, хотя этот пост на MathOverflow, возможно, был включен в данные обучения o1, он все же может продемонстрировать мощные возможности модели в семантическом поиске, а качество собранных и обобщенных ответов может быть сопоставимо с профессиональными веб-сайтами вопросов и ответов, такими как MathOverflow.

Другой эксперимент был более творческим и напрямую связан с собственными исследованиями Теренса Тао.


В качестве еще одного небольшого эксперимента я привел первую половину своего последнего поста в блоге, в котором суммируется предыдущий прогресс в решении проблемы Ордоса, которую я смог решить самостоятельно.


Чтобы преобразовать предыдущий частичный прогресс во всеобъемлющее решение, все еще остаются некоторые недостающие элементы. Я попросил модель o1 найти эти элементы преобразования, но результаты оказались немного разочаровывающими. По сути, стратегия, предложенная моделью, аналогична последнему исследованию, опубликованному в блоге, и не предлагает никаких творческих изменений в стратегии. В целом, я считаю, что, хотя инструменты LLM обладают определенной способностью случайным образом генерировать творческие стратегии, инструменты LLM в этой области все еще довольно слабы.

В нескольких статьях объясняется механизм работы o1, а DeepMind указан в Oita.

Менее чем через неделю после выпуска модели o1 мы уже стали свидетелями стольких удивительных случаев использования, а в технологическом сообществе искусственного интеллекта существуют разные мнения о механизме и принципах, лежащих в основе o1.

Диди Дас, бывший поисковый инженер Google и венчурный капиталист MenloVentures, однажды смело предположил, что основной принцип взят из статьи DeepMind, опубликованной в августе этого года.


Адрес статьи: https://arxiv.org/abs/2408.03314

В документе предполагается, что разрешение LLM выполнять больше «вычислений во время тестирования» является ключевым шагом в создании агента, который может работать в открытом контексте и достигать самосовершенствования.

В этой статье основное внимание уделяется вопросу расширения «вычислений времени вывода».

Исследовательская группа проанализировала два основных механизма увеличения времени вычислений: (1) поиск по плотной, основанной на процессах модели вознаграждения валидатора; (2) адаптивное обновление распределения ответов модели на основе подсказок, полученных во время тестирования.

Результаты показывают, что в обоих случаях эффективность различных расширений расчета времени тестирования сильно зависит от сложности ключевого слова.

На основании этого исследовательская группа предложила «вычислительно оптимальную» стратегию расширения — за счет адаптивного распределения вычислений времени тестирования на каждое слово подсказки эффективность расширения расчета времени тестирования увеличивается более чем в 4 раза.

Кроме того, при последовательной оценке FLOP для задач, в которых меньшая базовая модель достигла определенной степени нетривиального успеха, расчеты во время тестирования могут превзойти модель, которая в 14 раз больше.

Кроме того, технический директор HuggingFace Филипп Шмид также перечислил список документов, включая возможные принципы работы модели o1, в основном об улучшении эффективности рассуждений LLM при решении сложных задач посредством обучения/RLHF, а не быстрого проектирования.


Все эти пять статей были опубликованы в этом или прошлом году, и можно сказать, что они представляют собой передовой прогресс в направлении сегментации.

Первый — Quiet-STaR (Self-TaughtReasoner), предложенный Стэнфордом и Notbad в марте этого года.


Адрес статьи: https://arxiv.org/abs/2403.09629.

Идея статьи исходит из интуитивного понимания того, что, когда пишут и говорят, люди иногда останавливаются и думают, но содержание мышления и рассуждений не выражено явно, а имплицитно присутствует в письменном тексте.

Итак, в идеале языковая модель может научиться выводить основные принципы, которые не изложены в тексте.

Quiet-STaR — это обобщение STaR, опубликованное в 2022 году, позволяющее модели генерировать базовые принципы для каждого токена для объяснения будущего текста, тем самым улучшая возможности прогнозирования.

То же самое касается и второй статьи.


Адрес статьи: https://arxiv.org/abs/2408.07199.

Они объединили поиск по дереву Монте-Карло (MCTS) с механизмом самокритики и использовали неполитический вариант алгоритма оптимизации прямых предпочтений (DPO) для итеративной точной настройки взаимодействия агента.

Этот подход позволяет LLMagent одновременно эффективно учиться на успешных и неудачных траекториях, тем самым улучшая обобщение в сложных многоэтапных задачах рассуждения.

Третья статья посвящена математическим рассуждениям с целью улучшения понимания проблемы модели и ее способности «отражать».


Адрес статьи: https://arxiv.org/abs/2406.12050.

В частности, в статье предлагается новый метод «улучшения отражения», который встраивает размышления о проблеме в каждый экземпляр обучения, обучая модель рассматривать другие возможные перспективы и делать абстракции и аналогии, способствуя более полному пониманию посредством рефлексивных рассуждений.

Статья V-STaR также представляет собой пропаганду концепции STaR и была опубликована в феврале этого года.


Адрес статьи: https://arxiv.org/abs/2402.06457.

В статье предполагается, что оригинальный метод STaR отбрасывает большое количество неправильных решений во время итерационного процесса и может игнорировать ценную информацию.

V-STaR призван восполнить этот недостаток. Он использует как правильные, так и неправильные решения, сгенерированные в процессе самосовершенствования, и использует DPO для обучения модели проверки для оценки правильности сгенерированных решений. Этот валидатор используется во время вывода для выбора возможных решений.

Эксперименты показали, что запуск V-STaR в течение нескольких итераций может постепенно обучать модель вывода и модель проверки с более высокой производительностью.

Доклад Let'sVerifyStepbyStep вел эксперт по искусственному интеллекту Илья.


Адрес статьи: https://arxiv.org/abs/2305.20050.

В статье в основном обсуждается, как оптимизировать стратегию обучения больших моделей в сложных рассуждениях, особенно как использовать CoT для мышления.

Они предложили метод наблюдения за процессом (processsupervision), новую модель, обучаемую этим методом, и добились прорыва в решении математических задач.

Сила этой стратегии заключается в том, что по сравнению с контролем результатов вознаграждения выдаются постепенно в процессе вывода, тем самым значительно улучшая производительность модели.

В дополнение к пяти статьям, первоначально упомянутым в сообщении в Твиттере, Шимид также открыл отдельную веб-страницу на HuggingFace, чтобы продолжить поиск соответствующих статей, и на данный момент опубликовал семь статей.


https://huggingface.co/collections/philschmid/llm-reasoning-papers-66e6abbdf5579b829f214de8

Может ли o1 добиться самосовершенствования?

ДжимФан отметил в аналитическом посте, что ключевой вывод, который дает нам модель o1, заключается в том, что эти две кривые идут рука об руку — закон масштабирования во время обучения и закон масштабирования во время вывода, и последний является ключевым фактором для действительного преодоления убывающей отдачи.


Кроме того, он также получил две статьи, которые могут решить наши вопросы о «способности o1 к самосовершенствованию». Одна из статей — «Языковая модель самовознаграждения», предложенная Мета и Нью-Йоркским университетом в январе этого года.


Адрес статьи: https://arxiv.org/abs/2401.10020

Эта статья основана на очень простой идее: подскажите тому же LLM, направьте его на генерацию ответов и вознаградите себя, выполняя итеративную загрузку.

В документе говорится, что возможности моделирования вознаграждений больше не принадлежат фиксированной независимой модели, а могут следовать темпу основной модели. Но что интересно, насыщение модели все равно происходит после трех итераций.

В этом отношении идея Джимфана состоит в том, что модель вознаграждения критика совершенствуется медленнее, чем генеративная модель актера. Таким образом, хотя оба улучшаются, последний догонит первого и достигнет насыщения после трех раундов итераций.

Еще одна статья — ReST (Reinforced Self-Training), опубликованная DeepMind в августе прошлого года. Экспериментальные результаты также очень схожи: требуется до 3 раундов итераций, прежде чем будет достигнута убывающая отдача.


Адрес статьи: https://arxiv.org/abs/2308.08998.

Эти две статьи, кажется, демонстрируют, что не существует устойчивого разрыва в возможностях между рецензентами и участниками, если не вводятся внешние движущие сигналы, такие как символическая проверка теорем, наборы модульных тестов или отзывы компилятора.

Однако это узкоспециализированный контент в конкретных областях. Чтобы достичь нашего идеального общего самосовершенствования LLM, необходимо обнаружить и изучить больше исследовательских идей.

Ссылки:

https://www.reddit.com/r/singularity/comments/1fhi59o/chatgpt_o1_preview_mini_wrote_my_phd_code_in_1/

https://x.com/markchen90/status/1835143660746273185

https://mathstodon.xyz/@tao/113142753409304792