• Главная
  • Блог
  • Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

Китайский процессор Loongson 3A6000 собственной архитектуры LoongArch: тестирование производительности

26.08.2024 07:05

Это тестирование процессора, вероятно, одно из самых необычных на нашем сайте за последние годы. Мы привыкли к настольным ПК и ноутбукам на базе архитектуры x86, но существуют и другие вычислительные архитектуры, такие как ARM, используемая в решениях Huawei и Qualcomm, которые недавно запустила новые модели, включая те, что работают на Windows. Архитектура MIPS, хотя и не так широко распространенная как x86, также была популярна ранее.

Сегодня мы наблюдаем рост интереса к процессорам с альтернативными архитектурами. ARM, например, достигла уровня мощности, необходимого для современных настольных ПК и мощных ноутбуков. Более того, китайские компании сделали значительный прогресс в разработке микроэлектроники, включая универсальные и графические процессоры. Одним из наиболее интересных китайских процессоров является Loongson 3A6000, который мы рассмотрим в этом тестировании.

Китай стремится к независимости в производстве микрочипов, что обусловлено растущим значением вычислительных технологий для экономики и необходимостью сокращения зависимости от иностранных решений. На фоне торговых ограничений и санкций США, запрещающих продажу передовых технологий и микрочипов китайским компаниям, Китай активно развивает собственную микроэлектронную промышленность.

В этом контексте китайские компании, такие как Loongson, играют ключевую роль. Loongson, например, представляет собой ведущего производителя универсальных процессоров в Китае. Мы уже упоминали графические процессоры китайской разработки Moore Threads, а теперь пришло время для рассмотрения универсальных процессоров, на которых строятся ноутбуки, настольные ПК и серверы.

Значительный вклад в развитие китайской микроэлектроники был сделан в ответ на торговые ограничения, наложенные США. Эти ограничения замедлили доступ к новейшим западным технологиям, что вынудило Китай искать альтернативные решения и инвестировать в собственные разработки. Несмотря на то что китайские фабрики еще не достигли уровня таких мировых лидеров, как тайваньская TSMC, прогресс идет, и полупроводниковая война может длиться десятилетиями.

Компания Loongson Science and Technology, поддерживаемая Китайской академией наук, была основана более десяти лет назад и выпустила несколько серий процессоров. В 2022 году они представили серверные модели Godson 3C5000 и 3C6000 с 16 ядрами, а позже 32-ядерный 3D6000, который объединяет два кристалла 3C6000 на одной подложке. Недавно выпущенный процессор 3A6000 демонстрирует значительный прогресс в производительности на такт по сравнению с предыдущей моделью 3A5000, обеспечивая серьезную конкуренцию для лучших процессоров на рынке.

Для удовлетворения потребностей настольных ПК потребовался более мощный процессор, и Loongson 3A6000 стал самым производительным решением компании на данный момент. В начале августа 2023 года китайский производитель сообщил о начале производства четырехъядерного процессора нового поколения Loongson 3A6000, а в ноябре он был официально представлен. Этот процессор обладает 64-разрядной микроархитектурой MIPS64, доработанной китайскими инженерами, и включает модуль аппаратного шифрования TPM, а также двухканальный контроллер оперативной памяти с поддержкой DDR4-3200.

На момент запуска Loongson 3A6000 более 50 партнеров компании анонсировали продукты на его основе, включая компьютеры, ноутбуки, платы, устройства хранения данных и оборудование для сетевой безопасности. На китайских торговых площадках можно приобрести Loongson 3A6000 как в составе готовой системы, так и установленным на системную плату в двух вариантах: один с припаянным процессором без возможности разгона, другой от компании Asus с некоторыми возможностями разгона, о которых мы подробнее расскажем во второй части обзора.

Производитель утверждает, что производительность Loongson 3A6000 сопоставима с четырехъядерным процессором Intel Core 10-го поколения — Core i3-10100. Судя по тестам, процессор 3A6000 действительно демонстрирует конкурентоспособные результаты по производительности на такт (IPC) с аналогичными процессорами Intel и AMD. В однопоточном тесте SPECint CPU 2006, 3A6000 набрал 43,1 балла, а в SPECfp CPU 2006 — 54,6 балла. Эти результаты близки к показателям процессоров Intel Core предыдущих поколений при равной тактовой частоте 2,5 ГГц. В тестах SPEC CPU 2017 результаты 3A6000 также выглядят неплохо, несмотря на отставание по тактовой частоте.

Отставание Loongson 3A6000 от процессоров Intel и AMD по-прежнему заметно, несмотря на ожидания, что он достигнет уровня Core 11-го поколения и Zen 3 по скорости вычислений на такт. На частоте 2,5 ГГц, 3A6000 лишь в некоторых тестах немного опережает Core i3-10100 на 3,6 ГГц, но таких тестов немного. Сравнение с предыдущей моделью 3A5000 показывает, что однопоточная производительность нового процессора увеличилась на 60%, а многопоточная — еще больше, что впечатляет, но во многом связано с низкой базой.

Если китайским инженерам действительно удалось достичь уровня IPC, сопоставимого с современными решениями Intel и AMD, это значительное достижение. Однако, как отмечается, IPC — это лишь часть успеха, и тактовая частота также играет ключевую роль. Максимальная частота 3A6000 в 2,5 ГГц существенно уступает турбо-частотам современных процессоров конкурентов, что ограничивает его конкурентоспособность. Core i3-10100, с частотой до 4,3 ГГц, часто оказывается быстрее.

Ограничение частоты связано не только с архитектурными особенностями, но и с технологическим отставанием китайской полупроводниковой промышленности. Несмотря на эти трудности, Loongson продолжает развивать свои технологии и стремится улучшить производительность своих процессоров.

Архитектурные особенности

Процессор Loongson 3A6000 представляет собой усовершенствованную версию предыдущей модели 3A5000. В отличие от 3A5000, который имеет четыре ядра и четыре потока, работает на частоте 2,5 ГГц, потребляет до 35 Вт и поддерживает память DDR4-3200, новая версия 3A6000 предлагает поддержку многопоточности и повышенное максимальное энергопотребление, но сохраняет ту же рабочую частоту, что по современным стандартам выглядит довольно скромно.

Как и его предшественник 3A5000, процессор 3A6000 производится по 12-нм техпроцессу, без изменений в этом отношении. Размер кристалла 3A6000 составляет примерно 116 мм² (11,6×10 мм), что меньше, чем у 3A5000, который имеет площадь 142 мм². Однако новый процессор обладает вдвое большим кэшем первого уровня, тогда как объем кэша второго уровня остался на уровне 4 МБ на ядро.

Процессор, который мы рассматриваем, базируется на архитектуре LoongArch — последнем поколении архитектуры Godson, представленном в 2022 году. До этого компания использовала архитектуру MIPS, начав с неофициальных решений, а затем приобретя лицензии на MIPS32 и MIPS64 у MIPS Technologies. Первый процессор Loongson с 32-битной архитектурой MIPS32 появился в начале 2000-х, а затем последовали 64-разрядные модели с архитектурными расширениями и поддержкой двоичной трансляции x86-кода.

Архитектурные расширения включали собственные наборы инструкций, виртуализацию, ускорение двоичной трансляции x86 и ARM, а также векторные расширения для 128-битных SIMD. В 2021 году была представлена микроархитектура LoongArch с процессорами Loongson 3 серии 5000. Эта архитектура основана на MIPS64, но была адаптирована китайскими инженерами с добавлением собственных инструкций. В результате, базовая микроархитектура включает в себя 128-битные и 256-битные векторные инструкции (LSX и LASX), инструкции виртуализации (LVZ) и расширения для двоичной трансляции (LBT).

Процессор 3A6000 использует новые ядра LA664 по сравнению с LA464 в 3A5000. Эти ядра имеют более глубокий конвейер и поддерживают многопоточность (SMT), что улучшает производительность в многозадачных режимах. В итоге, четырехъядерный 3A6000 поддерживает восемь потоков и демонстрирует увеличение однопоточной производительности на 32% и многопоточной на 84% по сравнению с 3A5000.

Каждое ядро LA664 имеет 64 КБ кэша инструкций и 64 КБ кэша данных первого уровня, а также 256 КБ кэша второго уровня. Общий кэш третьего уровня для всех ядер составляет 16 МБ.

Архитектура вычислительных ядер

Ядро LA664 процессора 3A6000 обладает возможностями внеочередного исполнения (out-of-order) команд и продвинутым переупорядочиванием инструкций, что делает его конкурентоспособным по сравнению с аналогичными ядрами Intel и AMD прошлых поколений. Несмотря на то что LA664 основано на предыдущем ядре LA464, применявшемся в 3A5000, оно имеет улучшенные возможности и может одновременно исполнять большее количество инструкций.

Блок предсказания ветвлений в 3A6000 значительно улучшен по сравнению с 3A5000 и предлагает производительность, близкую к процессорам Intel и AMD нескольких поколений назад. Хотя Loongson еще не достигает уровня Zen 3 и более новых решений, улучшения в предсказателе ветвлений способствуют заметному росту производительности по сравнению с предыдущей моделью.

Тесты показывают, что предсказатель ветвлений 3A6000 справляется с задачами, такими как сжатие информации, на уровне как минимум Zen 1, а возможно, даже близко к Zen 2. Хотя архитектура Zen 4 значительно превосходит, прогресс в 3A6000 по сравнению с 3A5000 очевиден. Когда предсказатель инструкций определяет направление выполнения, кэш инструкций обеспечивает ядро данными. В 3A6000 кэш инструкций первого уровня увеличен до 64 КБ, что является улучшением по сравнению с 32 КБ у конкурентов AMD и Intel. Этот кэш питает декодер, который теперь более производительный, чем у 3A5000.

При внеочередном исполнении инструкций в процессе переименования и выделения используются слоты в очередях и буферах для отслеживания состояния инструкций. Более сложные структуры позволяют ядру предсказывать поток инструкций дальше, скрывая задержки и улучшая поиск параллелизма на уровне инструкций. В 3A6000 также увеличены регистровые файлы и очереди памяти на четверть и более, что исправляет недостатки буфера ветвления, присутствовавшие в LA464.

Большие буферы внеочередного исполнения важны для повышения однопоточной производительности, но важным аспектом также является хорошо настроенная технология многопоточности (SMT), которая распределяет ресурсы CPU между несколькими потоками. В 3A6000 реализована консервативная версия SMT со статическим разделением ресурсов — регистровых файлов, очередей загрузки и хранения. Это логичный выбор для первого процессора компании с поддержкой SMT.

Исполнительные блоки INT и FP

По сравнению с предыдущей моделью, в 3A6000 блоки целочисленного исполнения почти не изменились, кроме увеличения производительности планировщика, что делает использование исполнительных блоков ALU более эффективным. В 3A6000 сохранились четыре канала ALU, два из которых обрабатывают ветвления, а два — целочисленные умножения. Эта организация напоминает решение AMD Zen 2, но с двумя каналами для целочисленных умножений, в отличие от одного канала в AMD, хотя планировщик у последнего имеет больше возможностей.

Процессор 3A5000 уже поддерживал 256-битные векторные операции благодаря расширению LASX, но только с двумя конвейерами. В 3A6000 проведена глобальная модернизация: теперь есть четыре конвейера, каждый из которых может обрабатывать 256-битные упакованные сложения, что значительно увеличивает производительность операций с плавающей запятой. Для сравнения, x86-процессоры обычно могут выполнять только два 256-битных упакованных сложения за цикл.

Однако пиковая пропускная способность операций умножения-сложения с однократным округлением (FMA) осталась неизменной: как LA664, так и LA464 могут выполнить только одну операцию FMA за цикл, что вдвое меньше, чем у Zen 2 или Skylake. Несмотря на добавление дополнительных каналов, возможности планировщика увеличились на 50%, что должно обеспечить прирост производительности в операциях с плавающей запятой. Эти улучшения делают 3A6000 весьма эффективным процессором в векторных нагрузках и задачах с плавающей запятой.

Подсистема кэша и памяти

Хорошо спроектированная иерархия кэша и памяти критична для обеспечения эффективной работы современного высокопроизводительного процессора. Хотя в 3A6000 сохранена иерархия кэша из предыдущей модели, были внесены улучшения, которые помогли снизить задержки и упростить доступ к данным в кэше. Например, задержка доступа к данным из кэша первого уровня уменьшилась с четырех до трех циклов, что особенно важно при сравнительно низкой частоте Loongson по сравнению с более высокочастотными западными процессорами.

Процессоры современного поколения используют кэш второго уровня (L2) для уменьшения влияния промахов кэша первого уровня и высокой задержки кэша третьего уровня. В 3A6000 используется L2-кэш объемом 256 КБ, как и в старых архитектурах Intel. В более новых процессорах AMD и Intel L2-кэши значительно увеличены: в Zen 4 до 1 МБ, а в Raptor Lake до 2 МБ. Хотя в 3A6000 L2-кэш остался прежним по объему, его задержка была снижена с 14 до 12 циклов. Кэш третьего уровня (L3) объемом 16 МБ, общий для всех четырех ядер, остался неизменным, но задержка L3 также уменьшилась на пару циклов, возможно, благодаря улучшению работы L2-кэша.

Контроллер памяти DDR4 в 3A6000 значительно улучшен по сравнению с 3A5000: задержка доступа к оперативной памяти снизилась с 144 нс до 104 нс. Тем не менее, из-за более низкой тактовой частоты Loongson по сравнению с современными процессорами AMD и Intel, фактические значения задержек остаются высокими. В результате, несмотря на улучшенные возможности по переупорядочиванию команд и более высокий показатель исполняемых инструкций за такт, 3A6000 оказывается медленнее на каждом уровне кэша и уступает даже старым моделям вроде Zen 2.

Пропускная способность кэша и памяти

Пропускная способность памяти также критична для производительности, особенно в многопоточных приложениях. Модель 3A6000 сохранила многие элементы иерархии памяти из предыдущей модели, но с некоторыми улучшениями. В 3A5000 пропускная способность кэша первого уровня была сопоставима с процессорами Skylake и Zen 2, а в 3A6000 она удвоилась при записи. Теперь L1-кэш данных обеспечивает два 256-битных доступа за цикл, что дает отличные показатели пропускной способности даже при сравнительно низкой тактовой частоте процессора. Это можно сравнить с ядром Golden Cove, которое имеет аналогичную пропускную способность L1.

Кэш второго уровня (L2) в 3A6000 объемом 256 КБ остался почти таким же, как и у предшественника: пропускная способность при чтении и записи составляет 21-22 байта на цикл, что меньше по сравнению с современными западными процессорами, особенно Intel, у которых этот показатель составляет 64 байта на цикл. Однако пропускная способность L3-кэша увеличилась на треть до 18 байт за цикл, что позволяет Loongson 3A6000 конкурировать со старыми процессорами Intel, хотя кэш третьего уровня у AMD реализован еще лучше.

Контроллер памяти DDR4 в 3A6000 значительно улучшен по сравнению с 3A5000. Хотя заявлена поддержка DDR4-3200, стабильная работа на такой скорости была достигнута только в одноканальном режиме. В двухканальном режиме 3A6000 работал на частотах DDR4-1800/DDR4-1866, хотя некоторые тесты показали возможность работы на 2133 МГц. Это может зависеть от совместимости с конкретными модулями памяти, а настроек работы с памятью в BIOS Setup нет. В целом, по современным меркам, производительность работы с памятью у 3A6000 остается посредственной.

Тем не менее, 3A6000 показывает примерно на 38% большую однопоточную производительность по сравнению с 3A5000, а в многопоточных задачах разница еще больше благодаря поддержке SMT, отсутствующей у 3A5000. SMT обеспечивает прирост производительности на 20-30% по сравнению с вариацией без SMT, хотя у конкурентов прирост может достигать 40%. Несмотря на это, в тестах Loongson 3A6000 показывает конкурентоспособные результаты по сравнению с не самыми новыми решениями AMD и Intel, хотя это зависит от конкретных тестов и программного обеспечения.

На мероприятии по запуску процессора Loongson представил три модели: LS3A6000-HV для серверных и высокопроизводительных систем, LS3A6000-LL для настольных ПК и LS3A6000M для мобильных устройств. Все модели имеют одинаковые физические характеристики: FCBGA-корпус размером 35×35 мм с 1190 контактами. Тактовая частота варьируется от 2,0 до 2,5 ГГц в зависимости от модели, а потребляемая мощность составляет от 30 до 80 Вт.

Контроллер памяти процессора Loongson 3A6000 поддерживает два канала DDR4-3200 и коррекцию ошибок ECC. Для ввода-вывода в процессоре используется контроллер HyperTransport 3.0 с максимальной скоростью 6,4 Гбит/с, который совместим со стандартами HT 1.0 и HT 3.0, работающими на частотах 200—800 МГц и 1000—3200 МГц соответственно. Для управления энергопотреблением предусмотрены функции динамического отключения тактового сигнала основного модуля, динамического преобразования частоты основного тактового сигнала и динамического регулирования напряжения основного домена. Процессор 3A6000 работает только в однопроцессорной конфигурации, а физическая ширина адреса шины ограничена 44 битами.

В комплекте с процессором идет чипсет 7A2000, который включает графическое ядро LG110. Оно поддерживает разрешение до 1920×1080 при частоте 120 Гц или до 4K при 30 Гц через HDMI и VGA, а также OpenGL 2.1 и OpenGL ES 2.0. Чипсет предоставляет 32 канала PCIe 3.0, четыре порта SATA600, четыре USB 3.0 и восемь USB 2.0. Эти возможности обеспечивают достаточное расширение и подключение для ПК начального уровня.

Тестирование производительности

Тестовые системы и условия

В тестировании использовались как готовый китайский ПК на базе процессора Loongson 3A6000 с указанным аппаратным обеспечением, так и системная плата от компании Asus с припаянным процессором, комплектным воздушным кулером и дополнительными компонентами.

  • Процессор: Loongson 3A6000 (4 ядра/8 потоков, 2,5 ГГц)
  • Система охлаждения: малогабаритные воздушные кулеры
  • Системные платы:
    • PNXC PN-L530A (чипсет 7A2000)
    • Asus XC-LS3A6M (чипсет 7A2000)
  • Оперативная память:
    • 16 ГБ (2×8 ГБ) DDR4-3200 CL16
    • 16 ГБ (1×16 ГБ) DDR4-3200 CL22
  • Видеокарты: встроенная в чипсет LG110 и внешняя AMD Radeon RX 480 (8 ГБ)
  • Накопитель: SSD Kimtigo TP3000 512 ГБ

Китайский процессор поддерживает память DDR4-3200, как и его предшественник, четырехъядерный и четырехпоточный Loongson 3A5000. Возможен двухканальный режим, однако наши комплекты DDR4-памяти функционировали только на скорости DDR4-1800/1866, что ограничивает прирост производительности от использования двухканальной конфигурации. Мы провели тестирование и с двухканальной памятью, чтобы оценить влияние на систему. Для справки, в готовой системе PNXC установлен один модуль, работающий в одноканальном режиме на полной скорости DDR4-3200.

К сожалению, в BIOS Setup отсутствуют настройки для регулировки частоты и таймингов памяти, системная плата автоматически выставляет все параметры, без возможности выбора или настройки XMP-профилей, что обусловлено ограничениями относительно новой платформы. Вместе со встроенной в чипсет видеокартой Loongson, для дополнительных тестов мы использовали видеокарту AMD Radeon RX 480, и причины выбора этой модели будут объяснены в практической части статьи.

Выбор конкурентов для Loongson 3A6000 оказался сложным, поскольку у нас не было в наличии таких моделей, как Core i3-10100. Поэтому для сравнения мы использовали минимальные конфигурации доступных систем на базе процессоров Intel и AMD: Core i3-12100 с памятью DDR5 и процессор Ryzen 7 1700, который мы настроили для эмуляции четырехъядерного Ryzen 5 1500X. Мы отключили половину ядер, чтобы имитировать четырехъядерный процессор Ryzen 5 1500X, сохранив при этом весь объем L3-кэша в 16 МБ, но с ограниченной пропускной способностью Infinity Fabric. Мы также установили соответствующий лимит энергопотребления для достижения почти полного соответствия Ryzen 5 1500X.

Для процессоров Ryzen и Core использовались стандартные тестовые системные платы и типичная память с настройками из XMP-профилей, а ограничения по энергопотреблению были установлены в соответствии со спецификациями процессоров. Мы также провели тестирование Core i3-12100 при постоянной частоте 2,5 ГГц, отключив все технологии повышения частоты, такие как Turbo Boost и Thermal Velocity Boost, и установив более низкий лимит потребления. Аналогичным образом, имитированный Ryzen 5 1500X был настроен на постоянную частоту 2,5 ГГц с отключением технологий повышения частоты, таких как Precision Boost Overdrive (см. скриншот).

В итоге мы получили сравнимые процессоры, где все ядра работают на частоте 2,5 ГГц, как у китайского процессора. С помощью Core и Ryzen, работающих на той же частоте, мы сможем оценить архитектуру китайского процессора и выяснить, насколько он сопоставим с современными, но не самыми новыми решениями Intel и AMD при равной тактовой частоте. Это позволит сравнить так называемый показатель IPC — производительность на такт, или количество исполняемых за такт инструкций.

Что касается программного обеспечения, на данный момент выпущены две полноценные операционные системы с официальной поддержкой архитектуры LoongArch: Loongnix и UOS. Также есть тестовые сборки российской ALT Linux, и в будущем поддержка может расшириться. Предоставленный нам ПК был предустановлен с операционной системой UOS на базе Linux, но в тестах мы использовали и Loongnix на второй системе, основанной на плате Asus. Для обеспечения равных условий тестирования Ryzen 5 и Core i3 запускались под управлением x86-совместимой версии UOS. Следует учитывать, что другие версии Linux и/или Windows могут показать лучшие результаты для x86-процессоров.

Выбор тестового ПО оказался довольно сложным. Из-за отсутствия поддерживаемых версий Windows для Loongson и нехватки привычного ПО под Linux, мы решили использовать пакет Phoronix Test Suite и протестировать как можно больше доступных тестов, совместимых с архитектурой LoongArch64.

Этот процесс был непростым, поскольку многие тесты либо не поддерживают эту архитектуру, либо зависят от библиотек и оптимизаций, предназначенных исключительно для x86-64 и не могут быть собраны на других CPU. Даже если в коде нет явных архитектурных зависимостей, могут возникать проблемы со сборкой, а при попытке запуска тестов может наблюдаться некорректная работа, отсутствие результатов или ошибки в завершении тестов. В результате мы смогли использовать только те тесты из пакета, которые удалось запустить на системе с процессором Loongson. Некоторые из них могут использовать двоичную трансляцию x86-кода, что усложняет определение их работы.

Синтетические тесты

Производительность памяти и системы кэширования

Для начала оценим эффективность контроллера памяти и системы кэширования данных у китайских инженеров. К сожалению, условия тестирования для разных процессоров варьировались, поскольку Intel поддерживает память DDR5, а AMD и Loongson работают только с DDR4. Китайский процессор не смог функционировать в двухканальном режиме DDR4-3200 с имеющимися у нас модулями, хотя с одной планкой DDR4-3200 работал без проблем. Однако разница в производительности между одноканальной DDR4-3200 и двухканальной DDR4-1866 оказалась меньше ожидаемой.

Первым тестом была проверка пропускной способности кэш-памяти и оперативной памяти с помощью CacheBench из пакета LLCbench. Этот тест измеряет пропускную способность при чтении, записи и в смешанном режиме операций с данными. Результаты показывают, что основное влияние на производительность оказывает пропускная способность кэшей, а не оперативной памяти, так как разница между одноканальным и двухканальным режимами у Loongson незначительна.

Процессор Intel демонстрирует явное преимущество во всех режимах, что ожидаемо — он самый новый и с использованием DDR5-5200 показал вдвое большую производительность в работе с кэшем и памятью по сравнению с китайским Loongson. Ryzen 5 1500X оказался почти в полтора раза быстрее Loongson в этом тесте, что связано с поддержкой двухканального режима памяти.

Однако разница между процессорами уменьшается при снижении частоты до 2,5 ГГц. В этом случае Loongson не только сравнялся с Ryzen 5 1500X, но и обогнал его, демонстрируя лучшую работу с кэшем по сравнению с устаревшим Zen 1 при том же количестве ядер. Core i3-12100, приведенный к частоте 2,5 ГГц, остался на уровне полноскоростного Zen 1. В целом, результаты Loongson пока что выглядят не так уж плохо.

Второй бенчмарк, Memory Bandwidth (MBW), представляет собой простой тест пропускной способности оперативной памяти, который измеряет скорость операций копирования данных. Мы использовали два объема данных: 128 МБ и 4 ГБ. В этом тесте пропускная способность оперативной памяти имеет большее значение, чем кэш, поэтому двухканальный режим, даже с DDR4-1866, показывает преимущество по сравнению с одноканальным DDR4-3200, несмотря на более низкую частоту в первом случае.

В сравнении с конкурентами, Core i3-12100 снова оказался самым быстрым, что объясняется использованием DDR5-памяти. Ryzen 5 1500X также продемонстрировал лучшую производительность по сравнению с китайским процессором, особенно в первом режиме копирования. Однако при фиксированном размере блока данных Loongson в двухканальном режиме даже показал большую скорость, чем процессоры семейства Zen 1, что является хорошим результатом, учитывая использование DDR4-1866.

RAMspeed — это тест производительности оперативной памяти, в котором мы использовали два режима средней скорости передачи данных: целочисленный и с плавающей запятой. В этом тесте пропускная способность оперативной памяти имеет ключевое значение, и разница между одно- и двухканальным режимами оказалась заметной, с преимуществом второго варианта, несмотря на снижение частоты памяти.

Тем не менее, даже с учетом этого преимущества, Loongson 3A6000 не смог приблизиться к результатам старых процессоров западных компаний. Core i3-12100 и Ryzen 5 1500X показали значительно лучшую производительность по сравнению с китайским процессором, даже когда частота их работы была приведена к 2,5 ГГц, что является максимумом для Loongson. В этом тесте 3A6000 оказался вдвое-втрое медленнее своих конкурентных решений.

Последний тест в этом разделе называется Stream. Это популярный бенчмарк для оценки пропускной способности оперативной памяти, предлагающий четыре различных метода измерения. В этом тесте мы исследовали эффективность ОЗУ, и результаты показали различия в зависимости от количества каналов памяти.

К сожалению, результаты для китайского процессора не продемонстрировали значительных достижений. В одном из режимов он смог приблизиться к Ryzen 5 1500X, но в других показал значительное отставание как от AMD, так и от более мощного процессора Intel с памятью DDR5, который оказался самым быстрым в этом сравнении. В целом, китайский процессор пока не достиг уровня эффективности старых западных процессоров в контроллере памяти.

Синтетические и общие тесты

Синтетические тесты производительности из разных пакетов могут быть полезны для оценки низкоуровневых характеристик процессора в специфичных задачах, хотя некоторые из них также предлагают определенную универсальность. Эта группа тестов демонстрирует относительную производительность процессора в различных применениях и сценариях.

Core-Latency — это тест, измеряющий задержки между всеми комбинациями ядер процессора, предоставляющий минимальные, средние и максимальные значения. Особенно интересны результаты в чиплетных архитектурах или многопроцессорных системах, где задержки между ядрами могут сильно варьироваться.

Результаты теста показывают, что в двухканальном и одноканальном режимах DDR4-памяти задержки практически одинаковы. Явно видно, что кристалл Loongson 3A6000 является монолитным, и различия в задержках между его ядрами минимальны — почти такие же, как у монолитного Core i3-12100, хотя немного хуже. Однако при приведении частоты до 2,5 ГГц Loongson начинает показывать преимущество. Процессор Ryzen 5 1500X, благодаря своей чиплетной архитектуре, явно отстает — задержки между активными ядрами, размещенными в разных чиплетах, значительно больше, особенно средние и максимальные значения.

EEMBC CoreMark — это набор синтетических тестов, предназначенный для измерения производительности процессоров и микроконтроллеров, заменивший старый тест Dhrystone. Он включает алгоритмы поиска и сортировки данных, матричные операции, подсчет контрольной суммы и другие задачи. Результаты представлены в виде числа повторений за секунду, что позволяет удобно сравнивать разные системы.

Этот тест слабо зависит от скорости памяти, и в нем Loongson 3A6000 не слишком отстает от Ryzen 5 1500X, даже при полной частоте 3,5 ГГц. При снижении частоты AMD до уровня 2,5 ГГц, соответствующего частоте китайского процессора, Loongson показывает более высокую эффективность, чем процессор поколения Zen 1. Core i3-12100, работающий на частоте 2,5 ГГц, также обгоняет 3A6000, хотя его номинальная частота выше — 3,3 ГГц. Это ставит китайский процессор в невыгодное положение с его значительно худшими результатами.

Swet — это синтетический тест для оценки производительности центральных процессоров и оперативной памяти, включая многопроцессорные и многоядерные системы. Результаты выражаются в количестве операций в секунду. Несмотря на заявленное влияние скорости оперативной памяти, между двухканальным и одноканальным режимами на Loongson 3A6000 разницы замечено не было.

При сравнении с другими процессорами, китайский CPU демонстрирует слабые результаты: он вдвое медленнее Ryzen 5 1500X на полной частоте и почти вчетверо медленнее Core i3-12100, работающего на номинальной частоте. Даже при снижении частоты до 2,5 ГГц для западных процессоров, Loongson не дотягивает до Ryzen, не говоря уже о Core i3. Вероятно, этот тест плохо подходит для китайского процессора из-за недостаточной оптимизации под его архитектуру или использования двоичного транслятора, что делает такие результаты малопривлекательными для рекламных материалов производителя.

HardInfo — это инструмент для просмотра информации о системе и оборудовании, а также мониторинга, который включает несколько тестов производительности, охватывающих различные задачи, от трассировки лучей до криптографии. Результаты представлены в виде времени исполнения или баллов.

Здесь китайский процессор демонстрирует впечатляющие результаты. В тесте трассировки лучей Loongson 3A6000 показал результат лучше, чем Ryzen 5 1500X на полной частоте, и сравнимый с Core i3-12100 на номинальной частоте. В задаче N-Queens, известной своей сложностью, Loongson оказался самым быстрым, в то время как Core i3-12100 показал худший результат, что может быть связано с особенностями конкретной реализации.

В тестах CryptoHash, Zlib и Fibonacci Loongson демонстрирует неплохие результаты, сравнимые с Ryzen 5 на его нормальной частоте и Core i3 на частоте 2,5 ГГц. Также в тесте FFT (вычисление дискретного преобразования Фурье) китайский процессор показывает хорошие результаты, сравнимые с Ryzen 5 1500X на частоте 3,5 ГГц, хотя и уступает Core i3-12100 даже на частоте 2,5 ГГц. В целом, Loongson 3A6000 близок по производительности к Ryzen 5 1500X на его нормальных частотах, но Core i3-12100 все же явно быстрее.

Это Java-версия тестового пакета научных вычислений SciMark 2.0, которая включает различные алгоритмы, такие как метод Монте-Карло, быстрое преобразование Фурье, метод последовательной сверхрелаксации Якоби, операции умножения над разреженными матрицами и LU-разложение матрицы. В тестах наблюдается некоторое влияние увеличенной пропускной способности памяти для двухканального режима, хотя не для всех алгоритмов.

Loongson 3A6000 продемонстрировал достойные результаты, особенно в сравнении с замедленными до 2,5 ГГц процессорами AMD и Intel. Это указывает на хороший показатель количества исполняемых инструкций за такт, хотя до полноскоростных Ryzen 5 1500X и Core i3-12100 китайскому процессору всё же далеко. Результаты зависят от конкретных подтестов — в некоторых Loongson достиг уровня Ryzen на полной частоте.

В методе последовательной сверхрелаксации Якоби и в операциях умножения над разреженными матрицами китайский процессор уступил даже замедленному Ryzen 5 1500X. Однако в тесте быстрого преобразования Фурье он показал лучшие результаты, чем Ryzen на полной частоте, а в LU-разложении матрицы стал самым быстрым из трех протестированных процессоров. Это показывает, что многое зависит от конкретной задачи и оптимизации. В целом, по показателю IPC, китайский процессор близок к представителям семейства Zen 1.

Бенчмарк Stress-NG

Это специализированная утилита для комплексного нагрузочного тестирования аппаратного обеспечения с множеством различных тестов. Поскольку в пакете представлено множество тестов, мы решили представить результаты в удобном табличном формате, включая только те тесты, которые успешно выполнились на всех системах.

В этом тесте также представлены результаты для Loongson, работающего под управлением другой операционной системы, Loongnix, в двухканальном режиме памяти. Как видно из таблицы, результаты варьируются, и в некоторых тестах разница может достигать полуторакратного значения. Вы можете сами проанализировать таблицу, но мы отметим несколько ключевых моментов, сравнив Loongson 3A6000 с западными процессорами.

Прежде всего, стоит отметить, что Loongson часто не уступает Ryzen 5 1500X, работающему на сниженной до 2,5 ГГц частоте, и приближен к Core i3-12100 в этом же режиме, хотя в среднем всё же немного уступает более современному процессору Intel. Наибольшие проигрыши наблюдаются в задачах, требующих активного использования матричных вычислений и специализированных SIMD-инструкций, что указывает на возможную не оптимизацию тестов под набор инструкций Loongson.

Рендеринг

Тесты рендеринга являются одними из самых сложных для современных процессоров из-за многопоточного характера нагрузки при трассировке лучей. В таких условиях процессоры стремятся поддерживать максимально возможную частоту, потребляют максимум энергии и сильно нагреваются. Производители часто используют тесты рендеринга для сравнения производительности своих процессоров с конкурентами, поскольку такие нагрузки лучше обрабатываются процессорами с большим количеством ядер и потоков.

Мы поместили результаты четырех бенчмарков для измерения скорости рендеринга на одну диаграмму:

  • AOBench: легковесный рендерер с использованием ambient occlusion, разрешение 2048×2048 пикселей.
  • C-Ray: многопоточный трассировщик лучей для тестирования вычислений с плавающей запятой.
  • POV-Ray: трассировщик лучей Persistence of Vision.
  • Smallpt: рендерер для глобального освещения методом трассировки пути Монте-Карло, использующий многопоточность через OpenMP.

Пропускная способность памяти практически не повлияла на результаты; скорость рендеринга в разных режимах с количеством каналов памяти почти не изменилась. Результаты Loongson 3A6000 в тестах рендеринга оказались довольно впечатляющими. Он не только практически не уступил конкурентам при равной частоте в 2,5 ГГц, что подчеркивает высокий IPC, но и в некоторых тестах был близок к Ryzen 5 1500X на номинальной частоте 3,5 ГГц.

Core i3-12100, как и следовало ожидать, значительно опередил оба соперника при частоте 3,3 ГГц. Даже при снижении частоты до 2,5 ГГц он оставался быстрее китайского процессора и лишь немного уступал AMD. Результаты Loongson 3A6000 можно считать удачными, особенно учитывая, что его IPC не сильно уступает даже более современным процессорам. Ожидания были ниже, и впереди нас ждет еще много разнообразных тестов.

Работа с медиаданными

В этом разделе мы рассмотрим несколько тестов по обработке медиаданных, включая фотографии и видеоролики. Эти тесты охватывают практические задачи, такие как кодирование аудио- и видеоданных в специализированные форматы, а также более узкоспециализированные задачи, например, синтез речи. Поскольку такие задачи часто выполняют многие пользователи, результаты этого раздела имеют значительное практическое значение.

Для начала мы протестировали сжатие аудиоданных в различные форматы: APE, FLAC и WavPack. Все эти форматы предназначены для сжатия звука без потерь, и пропускная способность оперативной памяти не оказала заметного влияния на результаты.

К сожалению, в тестах аудиокодирования процессор Loongson 3A6000 показал себя не лучшим образом. Во всех трех форматах китайский процессор уступил как AMD, так и Intel, и это отставание сохранялось даже при сниженной до 2,5 ГГц частоте. Разрыв в производительности по сравнению с западными процессорами на той же частоте достигал двух-трех раз, а иногда и четырехкратного отставания! Это связано с отсутствием оптимизаций для менее распространенных процессоров LoongArch. Хотя можно сказать, что кодирование аудио не является самой востребованной задачей, и процесс всё же происходит относительно быстро, давайте посмотрим на другие тесты обработки звука.

На диаграмме представлены результаты двух тестов, связанных с синтезом речи и обработкой звука. Первый тест, Google SynthMark, кроссплатформенный инструмент для измерения производительности CPU в реальном времени при обработке аудио, включает полифонический синтезатор и оценивает задержку, джиттер и вычислительную пропускную способность. Второй тест, eSpeak, измеряет время синтеза речи из книги «The Outline of Science» с использованием улучшенного движка eSpeak-NG и выводом аудио в формате WAV.

Разница между двухканальным и одноканальным режимами памяти не оказала влияния на результаты, поэтому сравниваем процессоры. В первом тесте Loongson 3A6000 показал хорошие результаты: его производительность была сопоставима с Core i3-12100 на сниженной до 2,5 ГГц частоте и почти достигла уровня Ryzen 5 1500X на номинальной частоте, что является отличным результатом.

Во втором тесте синтеза речи результаты были менее впечатляющими, но всё равно достойными: Loongson 3A6000 оказался быстрее замедленного до 2,5 ГГц Ryzen 5 1500X и чуть медленнее Core i3-12100 при той же частоте. Это подтверждает, что производительность Loongson в вычислениях за такт хороша, но требует дополнительных оптимизаций и использования специализированных инструкций для достижения лучших результатов. При учете номинальных частот западных процессоров Core i3-12100 значительно превосходит китайский CPU.

Dav1d — высокоскоростной программный декодер для видео в формате AV1. Мы протестировали его на декодировании двух видеороликов с разрешением Full HD и 4K. Интересно, что результаты варьируются в зависимости от режима работы памяти: двухканальная DDR4-1866 показала немного лучшую производительность по сравнению с одноканальной DDR4-3200.

При декодировании видео в формате AV1 проявились те же проблемы, что и при кодировании аудиоданных — отсутствие оптимизации и использования специализированных инструкций. В результате скорость декодирования на Loongson 3A6000 была вдвое ниже, чем у Core i3-12100, работающего на сниженной частоте 2,5 ГГц, и в полтора раза медленнее, чем у Ryzen 5 1500X на той же частоте.

При сравнении с процессорами Intel и AMD на номинальных частотах разница становится еще более ощутимой — Loongson 3A6000 отстает от конкурентов на 2-3,5 раза. Это делает китайский процессор не конкурентоспособным в этом бенчмарке. Однако для обычного пользователя, который не сталкивается с задачами декодирования нескольких 4K-роликов одновременно, 40 FPS может быть вполне достаточной производительностью. Несмотря на это, результат все же оставляет Loongson 3A6000 заметно позади своих конкурентов.

Следующий тест фокусируется на программном кодировании видеоданных в формат H.265 с помощью популярного кодировщика x265. Мы тестировали два разрешения: Full HD и 4K. Для обеспечения высокой производительности при кодировании обычно используются инструкции SIMD, такие как SSE, AVX, AVX2 и AVX-512 для x86-совместимых процессоров, а также LSX и LASX для Loongson.

Результаты в этом тесте показывают, что высокий FPS не достигается, и каждая кадр в секунду имеет критическое значение. Хотя в современных системах кодирование и декодирование видеоданных часто выполняет графический процессор (GPU), в отсутствие такой поддержки эту задачу выполняет центральный процессор. Влияние скорости памяти на результаты отсутствует; ключевыми факторами являются вычислительная мощность и качество оптимизации под конкретные архитектуры.

Однако, в этом тесте Loongson 3A6000 снова демонстрирует слабые результаты, вероятно из-за отсутствия оптимизаций для архитектуры LoongArch, включая специализированные инструкции. Как результат, китайский процессор значительно уступает Core i3-12100 и Ryzen 5 1500X — разница составляет до 5-6 раз по сравнению с процессором Intel даже при сниженной частоте до 2,5 ГГц. При сравнении с процессорами AMD и Intel на номинальных частотах разница становится еще более значительной, достигая 5-10 раз. Интересно, что среди конкурентов процессор Intel показывает лучшую производительность, чем Ryzen, но это не помогает Loongson, который все еще сильно отстает в кодировании видео.

Рассмотрим ещё один требовательный тест — VVenC, быстрый и эффективный кодировщик видеоданных в формате H.266/VVC (Fraunhofer Versatile Video Encoder). Он использует SIMD Everywhere (SIMDe), библиотеку для портируемой реализации SIMD на различных платформах, которые изначально не поддерживаются. К сожалению, продукция китайского производителя не включена в список поддерживаемых платформ. Если x86-процессоры используют все виды инструкций SSE и AVX, а ARM-платформы — SIMD-ускоренные операции Neon, то у Loongson снова возникают проблемы с производительностью.

И действительно, сложность задачи возрастает, и без SIMD-инструкций здесь добиться хороших результатов сложно. Явное различие между кодом, оптимизированным под x86-процессоры, и тем, что работает на LoongArch, становится очевидным. Хотя Loongson 3A6000 и работает, его производительность заметно уступает западным моделям процессоров. Разница в производительности достигает не 10 раз, а гораздо больше при сравнении с Core i3-12100 на номинальной частоте, и Ryzen 5 1500X также показывает лучшие результаты. Даже при сниженной частоте до 2,5 ГГц процессор AMD опережает Loongson более чем в 5 раз. Китайской компании предстоит ещё много работы по созданию оптимизаций для их процессоров в различных программных продуктах, чтобы избежать таких значительных провалов.

Обработка изображений

Этот раздел тестов частично пересекается с предыдущим, но мы решили выделить его отдельно. Он сосредоточен исключительно на работе со статичными 2D-изображениями, включая их обработку, сжатие и распаковку в различных задачах.

G’MIC — это платформа для обработки цифровых изображений с открытым исходным кодом, предлагающая множество алгоритмов и функций для преобразования и обработки изображений. Она поддерживает многопоточность и может использовать OpenMP для ускорения вычислений за счет распределения нагрузки между несколькими ядрами.

Результаты тестов представлены в секундах, необходимых для завершения каждой из трех задач. Наблюдается явное влияние пропускной способности памяти: двухканальный режим, даже при меньшей частоте, обеспечивает лучшие результаты в обработке изображений. Это позволяет процессору Loongson в первых двух тестах приблизиться к результатам Ryzen 5 1500X, работающему на сниженной до 2,5 ГГц частоте. Однако Core i3-12100 даже в замедленном режиме демонстрирует заметно лучшую производительность. При сравнивании всех процессоров на их номинальных частотах, китайский процессор оказывается аутсайдером в первых двух тестах.

Интересно, что третий подтест выделяется тем, что процессор Ryzen показал значительное снижение скорости по сравнению с двумя другими. Loongson продемонстрировал лучшую производительность по сравнению с устаревшим четырехъядерным процессором AMD, даже при нормальной частоте. В тестах на номинальной частоте процессор Intel оказался быстрее Loongson, но на частоте 2,5 ГГц китайский процессор превзошел и его — что является весьма хорошим результатом для Loongson.

Следующий тест — RSVG/librsvg — оценивает производительность при работе с векторной графикой в формате SVG. Бенчмарк измеряет время, необходимое для конвертации векторной графики в формат PNG (растеризация). Это типичная задача, часто встречающаяся при просмотре современных сайтов, где на практике приходится обрабатывать множество мелких изображений.

В тесте растеризации векторной графики процессор Loongson 3A6000 показал достойные результаты, разместившись между Ryzen 5 1500X и Core i3-12100 при одинаковой частоте в 2,5 ГГц. Он немного опередил решение AMD и немного уступил процессору Intel. Однако более высокие частоты западных процессоров, особенно Core i3 на 3,3 ГГц, обеспечивают значительное преимущество — в реальных условиях процессор Core i3 становится вдвое быстрее, а Ryzen 5 также немного превосходит китайский процессор. Тем не менее, для Loongson результат можно считать вполне успешным.

Рассмотрим еще один универсальный тест обработки изображений — RawTherapee. Это кроссплатформенное приложение для каталогизации и обработки RAW-файлов с цифровых фотоаппаратов, аналогичное Adobe Lightroom и Aperture, но с открытым исходным кодом. В этом бенчмарке замеряется время обработки и конвертации RAW-файлов, что является частой задачей для профессиональных фотографов.

К сожалению, в этом тесте процессор Loongson снова демонстрирует слабые результаты из-за отсутствия оптимизации под его архитектуру команд. Скорость конвертации RAW в RawTherapee оказалась значительно ниже, чем у Ryzen 5 1500X, работающего на сниженной до 2,5 ГГц частоте. Процессор Core i3-12100, работающий на номинальных частотах, оказался более чем вдвое быстрее китайского процессора. Это может стать ощутимой проблемой, особенно при обработке большого количества фотографий, где разница в скорости становится заметной.

Переходим к тестированию сжатия и распаковки изображений. tjbench — это бенчмарк для оценки производительности распаковки JPEG-файлов с помощью библиотеки libjpeg-turbo, которая оптимизирована с использованием SIMD-инструкций современных процессоров. Хотя библиотека вроде бы поддерживает SIMD-инструкции от Loongson, эффективность этой поддержки остается под вопросом.

Результаты снова неутешительны для китайского процессора: он отстает от замедленного до 2,5 ГГц процессора AMD и тем более от Core i3-12100. Ryzen 5 1500X на номинальной частоте вдвое быстрее Loongson 3A6000, а процессор Intel выполняет задачу в 3,3 раза быстрее. Несмотря на то, что пакетная конвертация большого числа JPEG-файлов встречается нечасто, результаты показывают, что китайский процессор демонстрирует значительные проблемы с производительностью в этой задаче, что может быть связано с недостаточной программной оптимизацией для его архитектуры.

Перейдем к тестированию кодирования изображений, которое требует больше вычислительных ресурсов. В тесте OpenJPEG используется большой панорамный TIFF-файл объемом 717 МБ, конвертируемый в формат JPEG 2000. Результаты времени конвертации представлены в миллисекундах.

Здесь мы наблюдаем гораздо более позитивные результаты для Loongson 3A6000. Возможно, более новая версия ПО лучше оптимизирована для его набора инструкций, поэтому китайский процессор почти догоняет Ryzen 5 1500X на номинальной частоте 3,5 ГГц, а при равных частотах даже опережает его. Core i3-12100 все еще быстрее в номинальном режиме, но при снижении его частоты до 2,5 ГГц, Loongson снова показывает лучшие результаты. Это означает, что по IPC в этом тесте китайский процессор превосходит старые модели AMD и Intel, что стало неожиданным, но давайте посмотрим на результаты других форматов сжатия.

Следующий тест касается сжатия изображений, использующий библиотеку Google libwebp для перекодирования JPEG-файла разрешением 6000×4000 пикселей в формат WebP с помощью утилиты cwebp. Производительность измеряется в мегапикселях за секунду.

Результаты снова не радуют: похоже, что оптимизация ПО под аппаратные возможности Loongson оставляет желать лучшего. Китайский процессор показывает слабые результаты в этом тесте. Он уступает не только Core i3-12100 и Ryzen 5 1500X в их полноценных режимах, но и при их снижении до 2,5 ГГц, отставая в лучшем случае в два раза.

Да, в подтесте сжатия без потерь результаты близки к показателям процессоров AMD и Intel при единой частоте, но это вряд ли можно считать утешением на фоне значительного отставания в первых двух подтестах. Ryzen 5 на номинальной частоте оказался в 2,8 раза быстрее китайского процессора, а Core i3 — в четыре раза. Это печальный результат, который может ухудшиться в следующих тестах.

Еще один тест, аналогичный предыдущему, использует библиотеку Google libwebp2 для кодирования изображения в формат WebP2. Этот формат, находящийся в стадии разработки, поддерживает 10-битный HDR, более эффективное сжатие с потерями и улучшенное сжатие без потерь, а также полноценную многопоточность.

Результаты теста снова не радуют: процессор Loongson 3A6000 демонстрирует сравнительно низкую производительность. Тем не менее, отставание здесь немного меньше. При номинальных частотах Core i3-12100 быстрее в 2,5-2,7 раза, а Ryzen 5 1500X — менее чем вдвое. Хотя это по-прежнему значительное отставание, на частоте 2,5 ГГц Loongson приближается к старому процессору AMD, что оставляет много желаемого.

Последний тест в этом разделе — Etcpak, который позиционируется как «самый быстрый компрессор ETC на планете». Этот инструмент предназначен для максимально быстрой компрессии текстур в форматы ETC и S3, используя текстуру с разрешением 8K×8K и поддерживая как однопоточные, так и многопоточные режимы.

Результаты теста оказались крайне неожиданными: процессор Loongson 3A6000 показал очень низкую скорость сжатия текстур — на порядок медленнее по сравнению с процессорами AMD и Intel. Разница в производительности составляет примерно 13 раз по сравнению с Ryzen 5 1500X и до 22 раз по сравнению с Core i3-12100. Это подчеркивает отсутствие оптимизации под конкретную вычислительную архитектуру Loongson. Надеемся, что подобные неоптимизированные программы будут встречаться пользователям китайских процессоров как можно реже, но данный случай стоит учитывать при оценке производительности.

Криптографические тесты

Следующий важный раздел тестирования процессоров — криптографические задачи. Современные CPU способны выполнять шифрование больших объемов данных в реальном времени, и многие из них поддерживают специальные инструкции для наиболее распространённых алгоритмов шифрования, таких как AES.

Aircrack-ng — это набор инструментов для обнаружения WiFi-сетей, перехвата трафика и проверки стойкости ключей шифрования WEP и WPA/WPA2. В таких тестах важны количество вычислительных ядер и высокая производительность архитектуры, а не кэш или быстрая память.

Результаты для Loongson 3A6000 показывают, что процессор отстает более чем в три раза от Ryzen 5 1500X и более чем в восемь раз от Core i3-12100 на их номинальных частотах. Интересно, что Intel Core i3-12100 оказался более чем в два раза быстрее Ryzen 5 1500X. Даже при снижении частоты до 2,5 ГГц Loongson 3A6000 остается в 2,5 раза медленнее, чем замедленный Ryzen. Возможно, другие тесты в этом разделе покажут более разнообразные результаты.

Bork — это кроссплатформенная утилита для шифрования файлов, написанная на Java. Тест замеряет время, затраченное на шифрование файла-примера. Аппаратное ускорение шифрования на поддерживающих это CPU в данном случае, похоже, не используется.

В этом тесте Loongson 3A6000 показал более удовлетворительные результаты. Вероятно, бенчмарк не идеально оптимизирован для какой-либо конкретной архитектуры. Китайский процессор продемонстрировал результат на уровне Core i3-12100 при частоте 2,5 ГГц и оказался немного быстрее Ryzen 5 1500X на его полной частоте. В номинальном режиме Intel Core i3-12100 все еще быстрее, но Loongson в этом тесте показал достойные результаты.

Crypto++ — это библиотека с открытым исходным кодом для C++, предназначенная для работы с различными криптоалгоритмами. Она поддерживает множество алгоритмов и, для процессоров x86, использование расширения AES-NI. Для Loongson, вероятно, не было сделано дополнительных оптимизаций, поэтому китайский процессор, скорее всего, окажется в числе отстающих. В тестировании использовался общий результат для всех поддерживаемых алгоритмов.

К сожалению, отсутствие оптимизации сказалось негативно. Loongson 3A6000 оказался в числе отстающих: хотя результаты не так плохи, как в первом тесте, китайский CPU почти вдвое медленнее Ryzen 5 1500X при частоте 2,5 ГГц и немного медленнее Core i3-12100. В номинальном режиме процессоры Intel и AMD показывают преимущество примерно в 2,5 и 4 раза соответственно. В итоге, Loongson снова не смог продемонстрировать хорошие результаты в криптографическом тестировании.

Остался последний тест, использующий OpenSSL — криптографическую библиотеку с открытым исходным кодом, широко известную благодаря расширению SSL/TLS для HTTPS. Библиотека поддерживает большинство алгоритмов хеширования, шифрования и популярных криптографических стандартов. В этом тесте мы измеряли производительность по двум параметрам: RSA4096, где скорость указывается в количестве подписей в секунду, и SHA512, измеряемая в МБ/с.

Результаты для Loongson 3A6000 в этом тесте оказались лучше, чем в предыдущих. В первом подтесте китайский процессор по-прежнему отставал, но разница сократилась: он оказался в 2 и 3,8 раза медленнее Ryzen 5 1500X и Core i3-12100 соответственно при номинальных частотах. При снижении частоты Ryzen 5 до 2,5 ГГц разница уменьшилась до полутора раз.

Во втором подтесте результаты для Loongson 3A6000 были значительно лучше: производительность была на уровне замедленного до 2,5 ГГц Ryzen 5 1500X, что говорит о сравнительном уровне IPC. Однако Core i3-12100 вновь показал превосходство, с разницей в номинальном режиме более чем в два раза. Несмотря на это, OpenSSL тест можно считать сравнительно удачным для китайского процессора, особенно на фоне других тестов.

Сжатие и распаковка

Сжатие и распаковка данных в архивах знакомы большинству пользователей, так же как и популярные архиваторы. Мы провели тестирование с использованием нескольких из них, включая наиболее распространенные на системах Unix/Linux.

Gzip — это популярный формат сжатия без потерь, используемый в системах Unix, основанный на алгоритмах Deflate (LZ77 и Хаффман). В тесте измеряется время сжатия двух копий исходного кода ядра Linux 4.13. Результаты показали, что пропускная способность памяти не оказывает влияния: одноканальный и двухканальный режимы демонстрируют одинаковое время сжатия.

Loongson 3A6000 продемонстрировал хорошие результаты в этом тесте, особенно в сравнении с процессорами AMD и Intel на частоте 2,5 ГГц. В этом режиме китайский процессор оказался немного быстрее Ryzen 5 1500X и близок к Core i3-12100, показывая хороший IPC. Однако при работе на номинальных частотах конкуренты существенно превосходят Loongson: процессор Intel в два раза быстрее, а Ryzen 5 1500X лишь на 23% опережает китайский CPU. В целом, для Loongson это неплохой результат.

7-zip — популярный архиватор, известный своим эффективным и ресурсоемким методом сжатия. Тесты с 7-zip кроссплатформенные, что позволяет сравнивать результаты на разных операционных системах. Использование двухканальной памяти DDR4 оказывает положительное влияние на скорость сжатия, хотя при распаковке эта зависимость менее выражена.

Результаты тестирования процессора Loongson 3A6000 оказались весьма примечательными. При сжатии Loongson демонстрирует производительность в два раза хуже, чем у Core i3-12100 на полной частоте (и даже в замедленном до 2,5 ГГц режиме), но он приближается к Ryzen 5 1500X, и по показателю IPC оказывается быстрее процессора AMD.

Интересно, что при распаковке Loongson 3A6000 проявил себя лучше, чем AMD и Intel при их частотах 2,5 ГГц, что указывает на чуть более высокий IPC. Однако, в условиях нормальной работы, процессоры Core i3 и Ryzen 5 остаются быстрее, но разница уже не так велика: всего 30% и 12% соответственно.

В тесте сжатия использовался алгоритм LZ4, который, хотя и обеспечивает меньшую степень сжатия по сравнению с gzip, предлагает значительно большую скорость как при сжатии, так и при распаковке. Мы тестировали уровень сжатия Level 9 для анализа производительности.

По скорости сжатия Loongson 3A6000 превзошел Core i3-12100 и Ryzen 5 1500X, когда их частоты были снижены до 2,5 ГГц, что свидетельствует о хорошем уровне IPC у китайского процессора. Тем не менее, из-за своей меньшей рабочей частоты он уступает конкурентам при их номинальных частотах, хотя разница с Ryzen 5 сравнительно небольшая. Core i3-12100 на полной частоте оказался быстрее в 60%.

Распаковка данных происходит быстрее и не зависит от пропускной способности ОЗУ, в отличие от сжатия. В этом тесте Loongson проиграл своим конкурентам даже при равных частотах всех процессоров. При номинальной частоте Core i3 распаковывает файл вдвое быстрее, а Ryzen 5 опережает китайский процессор почти в полтора раза.

В тесте сжатия использовался алгоритм Zstd (Zstandard), который сочетает словарное сжатие LZ77 с эффективным энтропийным кодированием ANS, аналогичным коду Хаффмана. Для тестирования был выбран уровень сжатия Level 19 Long.

Loongson 3A6000 продемонстрировал производительность сжатия в этом формате, находясь между Core i3-12100 и Ryzen 5 1500X при частоте 2,5 ГГц, что указывает на хороший IPC у китайского процессора. Однако из-за более высокой рабочей частоты у конкурентов, процессор Intel оказался в полтора раза быстрее. При распаковке результаты аналогичны: на одинаковой частоте Loongson находится между замедленными версиями AMD и Intel, но при номинальных частотах процессоры AMD и Intel снова опережают его — Ryzen на 25%, а Core i3 на вдвое.

Формат сжатия bzip2, основанный на алгоритме Барроуза — Уилера, предоставляет многопоточную реализацию, обеспечивая эффективное сжатие, но с большей нагрузкой на CPU и более медленную скорость по сравнению с gzip и zip. Бенчмарк измеряет время сжатия и распаковки файла FreeBSD-13.0-RELEASE-amd64-memstick.img с использованием Parallel BZIP2.

В этом тесте производительность Loongson 3A6000 оставляет желать лучшего. При частоте 2,5 ГГц китайский процессор проигрывает обоим конкурентам. В режиме номинальной частоты Core i3-12100 более чем вдвое быстрее сжимает файл, а Ryzen 5 1500X — на 50% быстрее.

При распаковке ситуация выглядит лучше. Loongson 3A6000 превосходит Ryzen 5 1500X при частоте 2,5 ГГц и приближается к нему при номинальной частоте. Даже в замедленном режиме процессор Intel немного уступает китайскому CPU, хотя при номинальной частоте Core i3 обеспечивает 64% прирост скорости. Таким образом, Loongson показывает заметные улучшения при распаковке по сравнению с сжатием.

Последний тест в этом разделе измеряет время распаковки архива .tar.xz с установочными файлами веб-браузера Mozilla Firefox 84.0. Пропускная способность памяти оказывает небольшое влияние на результат — около 10%, поэтому мы сравниваем производительность Loongson в двухканальном режиме с конкурентами.

Loongson 3A6000 показывает значительно лучшую производительность при распаковке по сравнению с Ryzen 5 1500X и немного лучше, чем Core i3-12100, когда все процессоры работают на частоте 2,5 ГГц, что соответствует номинальной частоте Loongson. В этом тесте китайский CPU демонстрирует лучшие показатели IPC по сравнению с обоими процессорами AMD и Intel, хотя они и старее. Интересно, что Loongson достигает уровня Ryzen при его номинальной частоте в 3,5 ГГц. Тем не менее, Core i3-12100 опережает обоих соперников в полтора раза, благодаря своей более современной архитектуре и поддержке DDR5-памяти.

Компиляция и разработка

Хотя этот раздел не самый объемный и, возможно, не самый популярный среди наших читателей, он всё же представляет интерес. Разработчики программного обеспечения, пусть и немногочисленные, наверняка будут заинтересованы в новых решениях. Мы рассмотрим, как китайский процессор Loongson и архитектура LoongArch справляются с компиляцией кода, сборкой приложений и другими задачами, связанными с разработкой ПО.

Build2 — кроссплатформенный набор инструментов для сборки кода на C/C++. Первый тест в разделе измеряет время установки Build2 из исходного кода. Интересно, что пропускная способность памяти не оказала влияния на результаты, и двухканальный режим DDR4-памяти не принес улучшений.

К сожалению, Loongson 3A6000 пока не может похвастаться высокими результатами. Даже при снижении частоты соперников до уровня 2,5 ГГц, китайский CPU проигрывает обоим конкурентам. Показатель IPC у Loongson явно уступает. При работе в номинальных режимах процессоры Core i3-12100 и Ryzen 5 1500X показывают заметное преимущество: Intel быстрее более чем в два раза, а AMD выигрывает у китайского CPU почти в полтора раза.

PyBench — тест, оценивающий общую производительность системы с использованием Python, измеряя время выполнения различных функций, таких как BuiltinFunctionCalls и NestedForLoops. Общий результат помогает определить среднюю производительность Python на платформе.

В этом тесте Loongson 3A6000 демонстрирует улучшенные результаты по сравнению с предыдущими тестами, хотя и не без оговорок. По скорости он находится на уровне замедленного до 2,5 ГГц Ryzen 5 1500X, что указывает на сопоставимость с архитектурой Zen 1, которая уже довольно устарела. Более современный Core i3-12100 значительно опережает Loongson, даже при частоте 2,5 ГГц, выигрывая на 77%, а в номинальном режиме разница достигает трех раз. В то же время, процессор AMD быстрее Loongson на 40%.

Этот небольшой раздел завершают два теста времени компиляции: для примеров из библиотеки линейной алгебры C++ Eigen и языка программирования Erlang. Тесты измеряют время компиляции указанных проектов в секундах, и хотя пропускная способность памяти оказывает некоторое влияние, оно незначительное и может быть проигнорировано.

По скорости компиляции обоих проектов процессор Loongson сравним с замедленной до 2,5 ГГц версией Ryzen 5 1500X, что указывает на то, что китайские инженеры достигли уровня архитектуры Zen 1. Однако есть две проблемы: эта архитектура уже устарела, и даже она позволяет процессору AMD работать на значительно более высокой частоте, что делает его на 25%—30% быстрее. Core i3-12100, в свою очередь, демонстрирует значительное превосходство, будучи в 1,9—2,4 раза быстрее в номинальном режиме и на 20%—50% быстрее на частоте 2,5 ГГц. Это подчеркивает, что китайскому процессору еще предстоит догнать современные уровни производительности.

Высокопроизводительные вычисления

Этот раздел тестирования действительно вызывает много вопросов. С одной стороны, высокопроизводительные вычисления предъявляют серьезные требования к процессорам, но с другой стороны, вряд ли кто-то будет использовать процессор начального уровня для таких задач. Тем не менее, результаты тестов Loongson 3A6000 могут дать представление о производительности серверных CPU на основе той же архитектуры с большим количеством ядер. Мы оцениваем не только возможности конкретного настольного процессора, но и потенциал вычислительной архитектуры LoongArch в целом.

Первый тест в этом разделе, Algebraic Multi-Grid (AMG), оценивает производительность параллельного алгебраического многосеточного решателя для линейных систем на неструктурированных сетках. Результат теста показывает итоговую скорость вычислений, где более высокое значение означает лучшую производительность. Как и ожидалось, результаты зависят от пропускной способности памяти — двухканальный режим явно выигрывает, несмотря на сниженную частоту памяти.

К сожалению, даже при использовании двухканального режима Loongson 3A6000 демонстрирует скорость более чем вдвое ниже, чем замедленный до 2,5 ГГц Ryzen 5 1500X. Показатель IPC у китайского процессора в этом тесте оставляет желать лучшего. Ryzen 5 на частоте 3,5 ГГц и Core i3-12100 показывают схожие результаты, указывая на то, что производительность в данном тесте в значительной степени зависит от работы с памятью. В этом аспекте процессор Intel оказывается втрое быстрее Loongson.

Тест High Performance Conjugate Gradient (HPCG) решает систему линейных алгебраических уравнений с разреженной квадратной матрицей большой размерности методом сопряженных градиентов с предобуславливателем Гаусса-Зейделя. Алгоритм реализован с использованием MPI и OpenMP, что поддерживает многоядерные CPU.

Здесь также заметно влияние пропускной способности памяти, и двухканальный режим обеспечивает значительный прирост в скорости работы системы. Производительность процессоров AMD и Intel при разных тактовых частотах остается близкой, что подчеркивает важность пропускной способности памяти. В этом тесте Loongson 3A6000 демонстрирует результаты, которые в 3,3 раза ниже производительности Ryzen 5 1500X и более чем вчетверо уступает Core i3-12100.

В менее требовательных тестах Loongson может показать более хорошие результаты. Бенчмарк Himeno — это линейный решатель для уравнения давления Пуассона, использующий метод Якоби, и измеряет производительность в мегафлопах. Хотя пропускная способность памяти оказывает явное влияние, она не является определяющим фактором, и результаты процессоров AMD и Intel при разных частотах значительно различаются.

В данном тесте Loongson 3A6000 продемонстрировал результаты почти на уровне Ryzen 5 1500X, даже опередив его при работе на частоте 2,5 ГГц. Это свидетельствует о том, что китайская архитектура хорошо справляется с задачами по сравнению с Zen 1. Однако при сравнении с более новым Core i3-12100, использующим память DDR5, китайский процессор оказывается значительно медленнее, уступая сопернику, работающему на номинальной частоте, более чем вдвое.

Тест Mocassin (Monte Carlo Simulations of Ionised Nebulae) моделирует ионизированные туманности методом Монте-Карло и включает два варианта — более сложный и более простой. Время решения измеряется в секундах, и влияние пропускной способности памяти здесь присутствует, но не столь значительное, как в предыдущих тестах.

Loongson 3A6000 показал отличные результаты в этом тесте. В более сложном варианте теста (первом) китайский процессор оказался быстрее Ryzen 5 1500X, работающего на частоте 3,5 ГГц, а во втором варианте (менее сложном) он опередил Ryzen 5 1500X на частоте 2,5 ГГц. Это свидетельствует о хорошем показателе IPC у Loongson по сравнению с архитектурой Zen 1. Более того, в подтесте Dust2D Core i3-12100 на частоте 2,5 ГГц оказался немного медленнее Loongson 3A6000, что говорит о неплохих показателях IPC у китайского процессора. Однако при работе на родной частоте 3,3 ГГц Core i3-12100 существенно превосходит Loongson, демонстрируя вдвое большую производительность во втором подтесте.

NAS Parallel Benchmarks (NPB) — тест, разработанный NASA для оценки высокопроизводительных компьютерных систем, включает задачи разной сложности и размера. Мы рассмотрели два варианта из предложенных, и результаты выражены в миллионах операций в секунду. Явное влияние пропускной способности памяти наблюдается только в первом подтесте.

В 3D-варианте преобразования Фурье (3D FFT) Loongson 3A6000 показал очень низкую производительность, что свидетельствует о недостаточной оптимизации для китайской архитектуры. В этом тесте он оказался вчетверо медленнее Ryzen 5 1500X и более чем в шесть раз медленнее Core i3-12100 на их родных частотах. Однако во втором тесте китайский процессор справился лучше, показав скорость почти на уровне Ryzen 5 на частоте 2,5 ГГц. Это указывает на неплохой IPC у Loongson по сравнению с Zen 1, хотя и только в этом случае. Core i3-12100 в данном тесте оказался более чем в полтора раза быстрее на пониженной частоте и более чем в 2,6 раза — на своей номинальной частоте.

Parboil — набор тестов от Университета Иллинойс для оценки производительности вычислительных архитектур, поддерживающий OpenMP, OpenCL и CUDA. В этом случае мы использовали OpenMP для выполнения четырех подтестов. Результаты измеряются по времени выполнения задач.

Пропускная способность памяти влияет не на все подтесты, но во двух последних она оказывает значительное влияние — двухканальный режим работы памяти заметно увеличивает производительность Loongson. Однако этого недостаточно для сравнения с конкурентами от AMD и Intel: в большинстве тестов Loongson 3A6000 демонстрирует производительность в 2,5-3 раза ниже, чем Ryzen 5 1500X и Core i3-12100. Даже снижение частоты этих процессоров до 2,5 ГГц не приближает их показатели к скорости китайского CPU.

Тем не менее, во втором подтесте — MRI Gridding — Loongson оказался быстрее Core i3-12100 на его полной рабочей частоте 3,3 ГГц и почти в два раза быстрее Ryzen 5 1500X на его номинальной частоте. Возможно, это связано с особенностями выполнения теста на Loongson, но также может быть, что данный алгоритм оказался особенно хорошо оптимизирован для китайского процессора.

Rodinia — набор тестов для ускорения вычислений с использованием CUDA, OpenMP и OpenCL. В этом случае мы использовали только OpenMP, так как возможности ускорения на GPU отсутствуют. Результаты четырех подтестов измеряются временем выполнения в секундах — меньшее время означает лучшую производительность. Пропускная способность памяти влияет на результаты в первых двух подтестах.

По сравнению с Core i3-12100 и Ryzen 5 1500X, процессор Loongson 3A6000 демонстрирует следующие результаты: в первом и втором подтестах китайский CPU оказался немного быстрее Ryzen на частоте 2,5 ГГц, но значительно уступил Core i3 в его полной рабочей частоте, более чем вдвое. Это свидетельствует о том, что, несмотря на неплохие показатели IPC, Loongson не хватает частоты для конкурентоспособности.

В третьем подтесте Loongson был в 5 раз медленнее Core i3-12100 на полной частоте и в более чем 3 раза медленнее Ryzen 5 1500X на номинальной частоте. В последнем подтесте разрыв увеличился до 11 и 6 раз соответственно. Это значительное отставание указывает на серьезные проблемы с программной оптимизацией под новую архитектуру LoongArch.

Молекулярная динамика

Эти тесты также относятся к высокопроизводительным вычислениям, которые мы уже обсуждали в предыдущем разделе (включая частично вычислительную гидродинамику). Однако мы решили выделить их в отдельный подраздел из-за их значительного количества.

CloverLeaf — тест гидродинамики, использующий метод Лагранжа-Эйлера и OpenMP для многопоточных процессоров. Мы протестировали базовый расчет clover_bm, и время выполнения теста выводится в секундах. Пропускная способность памяти заметно влияет на результат, и добавление второй планки DDR4 существенно улучшило производительность Loongson, даже несмотря на не самый оптимальный контроллер памяти.

История с Loongson 3A6000 продолжается: в вычислительно сложных задачах китайский процессор показывает результаты не на высоте, что связано с недостаточной оптимизацией ПО под его архитектуру. В итоге, Loongson оказался на 75% медленнее замедленного до 2,5 ГГц Ryzen 5 1500X, а полноскоростной AMD вдвое быстрее. Core i3-12100 превосходит китайский процессор в 3,3 раза.

Dolfyn — бенчмарк для численного моделирования в вычислительной гидродинамике (CFD), измеряющий время выполнения демонстрационных программ. Влияние пропускной способности памяти здесь незначительное, а частота процессора оказывает заметное влияние на результаты.

Loongson 3A6000 показывает неплохие результаты в этом тесте: при частоте 2,5 ГГц он демонстрирует производительность на уровне Ryzen 5 1500X, и показатели IPC сопоставимы с Zen 1. Однако максимальная частота все еще играет свою роль, и в номинальном режиме Ryzen на 40% быстрее. Core i3-12100, в свою очередь, в 2,3 раза быстрее Loongson 3A6000 на полной частоте, что подчеркивает необходимость улучшения производительности китайского процессора.

Large-scale Atomic/Molecular Massively Parallel Simulator (LAMMPS) — это пакет для молекулярной динамики, используемый для сложных расчетов. В тестах применялся интерфейс MPI, а для наших тестов была выбрана модель Rhodopsin Protein. Влияние пропускной способности памяти в этом бенчмарке незначительное.

Loongson 3A6000 показал очень хорошие результаты в этом тесте, обойдя Ryzen 5 1500X при равных частотах и почти догнав Core i3-12100 при частоте 2,5 ГГц. Это свидетельствует о хорошем показателе IPC китайского процессора, несмотря на то что мы сравниваем его с процессорами AMD и Intel старых поколений. Даже с полноскоростным Ryzen 5 1500X Loongson 3A6000 почти на равных, однако Core i3-12100 все равно значительно впереди, вдвое превосходя китайский процессор из-за своей более высокой частоты.

Livermore Unstructured Lagrangian Explicit Shock Hydrodynamics (LULESH) — это трехмерное неструктурированное гидродинамическое моделирование Лагранжа для решения задачи Седова. Влияние пропускной способности памяти на производительность в этом тесте минимально и может быть проигнорировано.

Процессор Loongson 3A6000 снова показал относительно неплохие результаты, он немного опережает Ryzen 5 1500X при частоте 2,5 ГГц, но уступает Core i3-12100, который в том же режиме быстрее на 37%. Основная проблема Loongson — недостаточная рабочая частота, поскольку Ryzen и Core i3 при полной частоте значительно быстрее, соответственно на 25% и в 2,2 раза. Процессор Core i3-12100, более новый и поддерживающий память DDR5, существенно опережает и Ryzen, и Loongson. Тем не менее, по показателю IPC китайский процессор показывает достаточно хорошие результаты.

Pennant — это приложение для расчета гидродинамики на неструктурированных сетках в двумерном представлении. Оно включает два подтеста, результаты которых выражаются в секундах. В этом тесте пропускная способность памяти оказывает заметное влияние на производительность, причем двухканальный режим заметно улучшает результаты в обоих подтестах.

Тем не менее, даже с учетом этого улучшения, Loongson 3A6000 не достиг уровня производительности замедленного до 2,5 ГГц процессора Ryzen 5 1500X — китайский процессор всегда отставал. Полноскоростные варианты Ryzen и Core i3-12100 продемонстрировали производительность, превышающую результаты Loongson в 1,5 и 2-3 раза соответственно. В этом тесте Loongson снова оказался среди отстающих, и трудно сказать, связано ли это с недостатком оптимизации или с другими проблемами архитектуры.

Рассмотрим последний бенчмарк раздела — Incompact3d. Это высокопроизводительный код на Fortran-MPI для решения уравнений Навье-Стокса для несжимаемых жидкостей. Мы использовали базовый вариант с 129 ячейками в направлении, а результаты представлены в секундах, затраченных на расчет. Влияние пропускной способности памяти здесь значительное, и двухканальный режим памяти демонстрирует заметное улучшение, даже при меньшей частоте.

К сожалению, в этом тесте Loongson 3A6000 показал не очень хорошие результаты. Он оказался более чем вдвое медленнее полноскоростной версии Core i3-12100 и более чем на 30% уступил Ryzen 5 1500X при его номинальной частоте. При этом, 3A6000 оказался лишь на 17% медленнее Ryzen 5 при частоте 2,5 ГГц, что говорит о сравнительно неплохих показателях IPC. Однако следует учитывать, что процессоры Zen 1 вышли семь лет назад, и скоро будет представлено пятое поколение — китайским инженерам предстоит много работы, чтобы догнать текущие стандарты.

Машинное обучение

Мы не могли обойти актуальную тему ресурсоемких вычислений в машинном обучении. В этом разделе будет два теста, которые интересны, несмотря на то что для таких задач часто используются более эффективные графические процессоры. Тем не менее, универсальные CPU также находят свое применение в этой области.

NumPy (Numerical Python) — это библиотека с открытым исходным кодом для языка Python, обеспечивающая поддержку многомерных массивов и высокоуровневых математических функций для работы с ними.

Результаты тестирования Loongson 3A6000 с использованием NumPy не слишком обнадеживают: китайский процессор даже уступил Ryzen 5 1500X на сниженной частоте 2,5 ГГц. Хотя разница и не критическая, она заметна. Полноскоростной Ryzen 5 в 1,7 раза быстрее Loongson, а Core i3-12100 при частоте 3,3 ГГц опережает его почти втрое. Таким образом, процессор Intel демонстрирует заметное преимущество в матричных вычислениях по сравнению с AMD и Loongson.

TNN — это высокопроизводительная кроссплатформенная платформа глубокого обучения с открытым исходным кодом от Tencent, которая хорошо масштабируется от мобильных устройств до мощных серверов на GPU. Для тестирования мы использовали только две из четырех доступных моделей.

Loongson показал себя довольно хорошо в этом тесте, приближаясь по производительности к Ryzen 5 1500X на сниженной частоте 2,5 ГГц. Это свидетельствует о том, что по количеству исполняемых за такт инструкций китайский процессор близок к Zen 1. Однако Core i3-12100, как и в других тестах, значительно опережает Loongson — как на номинальной частоте, так и при сниженной до уровня китайского процессора. Тем не менее, отставание в 2,5 раза от Intel не выглядит слишком серьезным по сравнению с результатами в других тестах.

Энергопотребление

Оценка энергопотребления Loongson 3A6000 в данном контексте носит скорее ознакомительный характер, так как это не топовый процессор с высоким уровнем потребления. Модель 3A6000-HV, используемая в тестах, имеет установленное пиковое энергопотребление в 80 Вт, но на практике таких значений удалось достичь не было.

Для высокопроизводительных моделей Intel и AMD часто значения TDP оказываются ниже реального пикового энергопотребления из-за технологий повышения частоты и рабочего напряжения, которые позволяют временно превышать номинальное потребление. В случае простых процессоров, таких как Loongson 3A6000, значение TDP обычно не достигается, и многое зависит от особенностей частоты, температурных характеристик и других параметров. Производители системных плат также могут увеличивать пределы потребления и напряжения для повышения производительности.

Практические тесты Loongson 3A6000 показали, что его частота стабильно соответствует заявленным параметрам, не превышая и не опускаясь ниже 2,5 ГГц при любой нагрузке. Это отличается от современных процессоров AMD и Intel, которые могут достигать более высоких частот в однопоточном режиме и снижать частоту при полной нагрузке на все ядра. Для Loongson же ситуация проще и более предсказуема.

Мы сравнили энергопотребление систем с указанными процессорами в трех сценариях: в простое, при просмотре видеороликов высокого разрешения, и в режиме максимального потребления с запуском ресурсоемких приложений для математических расчетов. Для теста видео использовался встроенный медиапроигрыватель с роликом разрешением 1920×1080 пикселей в формате H.264, что может нагрузить как видеокарту, так и центральный процессор. Обратите внимание на различия в потреблении при работе двух поддерживаемых операционных систем, поэтому приведены данные для обеих ОС.

Сравнение энергопотребления проводится только между системами на базе Loongson и Core i3-12100, поскольку Ryzen 5 1500X не имеет встроенного видеоядра, и использование внешней видеокарты приводит к значительному увеличению общего потребления системы.

В режиме простоя ПК с процессором Loongson потребляет немного меньше, чем система на базе Intel, хотя разница несущественная. Это указывает на хорошую эффективность китайского процессора в наиболее экономичном режиме. В режиме максимального потребления, при запуске научных вычислений, результаты между двумя Linux-системами показали, что UOS была немного более экономичной. Итоговое потребление в 74-77 Вт для системы на базе Loongson оказалось значительно ниже 86 Вт у ПК с процессором Intel, хотя Intel и обеспечивает заметно большую производительность.

Наибольший интерес вызвал режим просмотра видеороликов. Из-за различий в поддержке аппаратных возможностей процессора Loongson, система UOS показала значительно лучшую работу по декодированию видео — напомним, мы использовали медиаплеер, предустановленный с ОС, без дополнительного ПО. В то время как в системе Loongnix основная часть декодирования выполняется программно, нагружая вычислительные ядра процессора, плеер в UOS использует выделенные блоки для обработки видеоданных. В результате система на базе Loongnix потребляла до 64 Вт, тогда как UOS потребляла лишь 46 Вт, а система с Core i3-12100 — 60 Вт. Это указывает на то, что для достижения высокой энергоэффективности китайскому процессору необходима качественная программная поддержка.

В общем, процессор Loongson 3A6000 потребляет немного меньше энергии, чем Core i3-12100. Однако процессор Intel обычно обеспечивает значительно большую производительность — часто в 1,5-2 раза и более. Таким образом, Loongson 3A6000 не отличается особой энергоэффективностью. Возможно, при сравнении с Core i3-10100 китайский процессор показал бы немного меньшее энергопотребление при сопоставимой производительности, но разница вряд ли была бы значительной.

Что касается температурного режима, то от системы с простым и минималистичным охлаждением не стоит ожидать значительного нагрева. На практике процессор Loongson 3A6000 нагревался не более чем до 60 градусов, согласно встроенному датчику и системе мониторинга. Этот уровень температуры не вызывает беспокойства — перегрев может произойти лишь при отсутствии системы охлаждения. Даже стандартный воздушный кулер вполне справляется с охлаждением Loongson 3A6000.

Выводы

Исходя из результатов тестов, можно сказать, что китайская компания Loongson проделала значительную работу, создав довольно неплохой процессор. Хотя Loongson 3A6000 не является идеальным продуктом и не достигает уровня современных процессоров AMD и Intel, китайским инженерам удалось сделать немалые успехи. Например, предсказатель ветвлений в 3A6000 находится на уровне Zen 2, и технология одновременной многопоточности SMT также близка к этому уровню. Контроллер DDR4-памяти был улучшен по сравнению с предыдущей моделью 3A5000, хотя еще далек от решений AMD и Intel, поддерживающих DDR5. Эти улучшения привели к значительному приросту производительности, и ядро LA664 в 3A6000 демонстрирует сопоставимые с Ryzen 5 1500X результаты при частоте 2,5 ГГц. 

Однако есть еще над чем работать, и в будущем можно ожидать дальнейших аппаратных и программных улучшений. Loongson 3A6000 — это важный шаг Китая к снижению зависимости от западной микроэлектроники. Для большинства базовых задач, таких как работа с браузером и офисными приложениями, производительности 3A6000 вполне достаточно. Основной проблемой остаются проблемы с программной поддержкой, особенно для ПО, не оптимизированного под архитектуру LoongArch. 

Хотя Loongson 3A6000 показывает неплохие результаты в некоторых тестах, он все еще отстает от даже старых процессоров, таких как Ryzen 5 1500X, не говоря уже о современных AMD и Intel. Сравнение с процессорами последнего поколения показывает значительное отставание как в производительности, так и в энергоэффективности. Проблемы также возникают с ПО, которое не всегда эффективно использует SIMD-наборы инструкций на китайском процессоре, что может негативно сказаться на производительности в реальных задачах.

Кроме того, Loongson 3A6000 не может похвастаться выдающейся энергоэффективностью, и его потребление энергии сопоставимо с Core i3-10100 и другими конкурентами. Хотя китайская компания имеет потенциал для улучшения IPC и повышения частоты, им предстоит еще много работы, чтобы достичь уровня современных западных процессоров. Для этого потребуется не только улучшение архитектуры, но и совершенствование технологий производства.

Текущий техпроцесс 12 нм, использующийся для 3A6000, ограничивает возможности процессора, хотя даже современные решения AMD и Intel также не идеальны. Если Loongson хочет стать значимым игроком на мировом рынке, им предстоит проделать огромную работу, чтобы конкурировать с ведущими производителями, такими как Intel и AMD. Важно отметить, что китайские компании сталкиваются с ограничениями в области полупроводникового производства из-за санкций США и должны адаптироваться к внутренним возможностям производства. Это может замедлить их прогресс, но интерес к тому, что они смогут достичь в текущих условиях, остается высоким.

На слайде представлены не только серверные процессоры с большим числом ядер и потоков, но и будущие модели для настольных ПК, основанные на новых ядрах с повышенными частотами и обновленными встроенными видеоядрами. Интерес вызывает то, что китайская компания Loongson планирует перейти на техпроцесс 7 нм еще в этом году. Хотя новая продукция вряд ли появится раньше следующего года, переход на 7 нм может обеспечить прирост производительности на 20-30% по сравнению с текущими моделями. 

Из-за санкций США производство процессоров возможно только в Китае на фабрике SMIC, что ограничивает производительность и эффективность по сравнению с TSMC. Тем не менее, переход на 7 нм будет значительным шагом вперед по сравнению с текущим 12 нм техпроцессом и будет представлять собой продвинутое достижение для китайской полупроводниковой промышленности.

Если следующие модели Loongson действительно будут использовать 7 нм техпроцесс, это позволит достичь более высоких тактовых частот и разместить большее количество ядер в одном кристалле, что значительно повысит конкурентоспособность этих процессоров. Несмотря на то, что Loongson 3A6000 уже подходит для многих задач, компании предстоит еще многое сделать, чтобы достичь уровня процессоров AMD и Intel, которые были актуальны 2-3 года назад, не говоря уже о более современных моделях.

Loongson 3A6000 демонстрирует потенциал китайского производителя, и важно, чтобы прогресс продолжался, а китайские процессоры развивались в конкурентной среде. Это может открыть для Loongson не только большой китайский рынок, но и возможность выхода на международные рынки, включая российский.

Напоминаем, что это только первая часть материала о процессоре Loongson 3A6000 и системах на его основе. Во второй статье мы рассмотрим практическое использование ПК на базе китайского процессора с собственной архитектурой. Мы протестируем как готовый компьютер PNXC, так и ПК, собранный на системной плате Asus. Также мы обсудим доступные для Loongson операционные системы и детально разберем тонкости и возможные недостатки использования этих процессоров для пользователей, привыкших к ПК на базе x86-совместимых процессоров и операционной системы Windows.