Новый Cortex-A320 от Arm — это первый сверхэффективный процессор, использующий усовершенствованную архитектуру Armv9, разработанный для удовлетворения потребностей приложений Интернета вещей и искусственного интеллекта. По сравнению с Cortex-A520 этот процессор обеспечивает повышение эффективности более чем на 50% за счет многочисленных микроархитектурных оптимизаций, а также узких путей выборки и декодирования данных, плотного банка кэш-памяти L1 и файла целочисленных регистров с уменьшенным количеством портов.

Cortex-A320 также повышает скалярную производительность на 30% по сравнению с Cortex-A35 предыдущего поколения за счет эффективных предсказателей ветвей, устройств предварительной выборки и улучшений системы памяти.

Cortex-A320 — это одноканальный процессор с нарушением порядка выполнения инструкций с 32-битной выборкой инструкций и 8-ступенчатым конвейером. Процессор поддерживает одноядерные и четырехъядерные конфигурации и является масштабируемым. Он оснащен DSU-120T, упрощенным общим блоком DynamIQ (DSU), который обеспечивает кластеризацию только на Cortex-A320.

Cortex-A320 поддерживает 64 КБ кэша L1 и до 512 КБ кэша L2 и предоставляет 256-битный интерфейс AMBA5AXI для подключения к внешней памяти. Кэш L2 и TLB L2 могут использоваться совместно процессорами Cortex-A320. Блок векторной обработки реализует технологии NEON и SVE2SIMD (одна инструкция, несколько данных) и может использоваться индивидуально в одноядерном составном процессоре или совместно использоваться разными ядрами в двухъядерной или четырехъядерной реализации.

Cortex-A320 ориентирован не только на рынок Интернета вещей, но и на сектор искусственного интеллекта и делает это за счет интеграции улучшений архитектуры Armv9 в векторную обработку NEON и SVE2. Возможности обработки машинного обучения процессора в десять раз выше, чем у Cortex-A35, а общая производительность машинного обучения в шесть раз выше, чем у широко используемого Cortex-A53. ArmCortex-A320 поддерживает новые типы данных, такие как BF16, а также улучшенные инструкции умножения точек и матриц, что делает его наиболее эффективным процессором Cortex-ACPU для приложений машинного обучения.