Уровень расшифровки близок к экспертному. Основная частота ошибок ИИ Google при интерпретации древних книг составляет всего 0,56%

Платформа Google AI Studio тестирует неназванную модель искусственного интеллекта и добилась важного прогресса в расшифровке неразборчивых исторических рукописей. Коэффициент ошибок модели при распознавании основных символов составляет всего 0,56%, а ее точность близка к уровню профессиональных исследователей в этой области.

Историк Марк Хамфрис провел систематическую оценку модели, используя специально созданный набор контрольных данных. В пяти сложных рукописях XVIII–XIX веков, охваченных тестом, общий коэффициент ошибок в модели составил около 1,7%. Большинство ошибок возникало в непрофильных вопросах, таких как особенности пунктуации и заглавных букв, и не влияло на правильное распознавание самих слов.

Если эти некритические ошибки исключить, уровень ошибок в символах модели можно дополнительно снизить до 0,56%, что эквивалентно только одной существенной ошибке на каждые 200 транскрибированных символов. Его производительность уже сравнима с работой профессиональных работников, занимающихся транслитерацией документов.

Тестовые рукописи охватывают широкий спектр стилей письма, включая сложные ситуации, такие как неразборчивый почерк, нестандартное правописание и противоречивая грамматика, что полностью подтверждает высокую адаптивность модели.Более примечательно то, что эта модель может не только выполнять транскрипцию текста, но и демонстрировать определенные возможности контекстного рассуждения.

Например, при обработке дневника купца XVIII века модель обнаружила запись о покупке сахара «145» без маркировки единиц измерения. Перепроверив общую сумму счета и объединив ее с британской валютой и системами единиц веса того времени, они успешно пришли к выводу, что эта цифра представляет собой «14 фунтов 5 унций».

Хамфрис также отметил, что текущая оценка все еще имеет определенные ограничения. Поскольку эта модель появляется лишь спорадически в форме A/B-тестирования, провести крупномасштабную систематическую проверку сложно. В настоящее время оценено только около 10% образцов в наборе эталонных данных.