Бывший основной разработчик Windows Дэйв Пламмер успешно запустил модель Transformer на компьютере PDP-11/44 47-летней давности и прошел обучение искусственному интеллекту с процессором 6 МГц и памятью 64 КБ.Модель, запускаемая этим PDP-11, называется ATTN-11 и написана Дэмьеном Бурейлем на языке ассемблера PDP-11 для реализации однослойного преобразователя с одной головкой, содержащего всего 1216 параметров.

Задача модели кажется простой: ввести строку чисел и вывести обратный результат.Но для выполнения этой задачи модель должна самостоятельно изучить структурные правила обращения последовательности. Пламмер считает, что это точно отражает суть работы современных больших моделей, таких как ChatGPT.
Чтобы работать на чрезвычайно ограниченном оборудовании, ATTN-11 провел множество экстремальных оптимизаций. Точность прямого распространения снижается до 8-битных чисел с фиксированной запятой, а каждый цикл ЦП оптимизируется.
Наконец, Пламмер использовал тайную доску, чтобыПримерно после 350 шагов обучения модель достигла 100% точности, а весь процесс занял около 3,5 минут.

Пламмер описывает тренировочный процесс на видео:«Модель начинается с глупости, с большими потерями, а затем в какой-то момент веса начинают сходиться, механизм внимания обнаруживает инверсное отображение, и машина пересекает эту невидимую линию от догадки к знанию».
Его основная мысль заключается в том, что суть современного ИИ заключается не в какой-то таинственной силе, а в том, что «машина постоянно обновляет силу тысяч взвешенных связей, делая следующий ответ немного менее ошибочным, чем в прошлый раз».
В заключение Пламмер отметил, что, поскольку вычислительные ресурсы все чаще становятся узким местом, компании, которые смогут вернуться к конечному стремлению к эффективности и оптимизации, будут иметь большее преимущество в будущей конкуренции ИИ.
