Продолжение темы здесь
Страницы:Кликните, чтобы указать произвольную страницуназад105далее
yd77: Apple M1, M1X.... vs x86
deadlock
Advanced Member
3576/3867 ответов
19 лет на iXBT, с января 2006
Чаще пишет Р Р† "Процессоры" (92%)
Россия, Москва
Инфо
d
deadlock Advanced Member
3 года назад / 17 сентября 2021 02:33
matik
Они не лучше. Они достаточно производительные для некоторых видов задач (фоновых процессов, например). Слово "лучше" здесь не подходит.
Интел вполне однозначно показал для чего они.
Для увеличения "throughput performance". 4 ядра gracemont на 80% быстрее 4-x потоков Skylake.
https://www.anandtech.com/show/16881/a-deep-dive-int…roarchitectures/4
Но вам-то виднее чем инженерам Интел!

Забавно, что клоны скайлейка ещё в этом году выпускались как последний писк инженерной мысли Интел для десктопа, а тут вдруг стали подходить лишь "для фоновых процессов"
Кстати как там процесс экстренного переобувания в воздухе?
Маленькие ядра это уже хорошо или всё ещё достаточно "правильный" (сиречь от Интел) DVFS делать

Intel classifies the performance levels on Alder Lake in the following order:
One thread per core on P-cores
Only thread on E-cores
SMT threads on P-cores
That means the system will load up one thread per P-core and all the E-cores before moving to the hyperthreads on the P-cores.

Как видите, SMT на самом конце в плане полезности.
Я даже не удивлюсь если в конце концов от SMT избавятся - это источник глюков и уязвимостей.
Вот налепят ещё более мелких ядер, а не "средних" как сейчас.
И привет трёхкластерная архитектура

Потому что могут. А АРМы - не умеют.
Eight A72 at 4GHz
VDN
Member
3659/16131 ответов, #17 в рейтинге
21 год на iXBT, с апреля 2003
Чаще пишет Р Р† "Политика" (27%)
Инфо
V
VDN Member
3 года назад / 17 сентября 2021 03:01
bess_temporary
Лучше бы реальные свойства процессоров обсуждать
Так нечего ж обсуждать. Железа на руках ни у кого нет.

Нет уж - Skylake, так Skylake. Который намного сложнее, чем Gracemont.
Насчёт "намного сложнее" - спорно. Набор ФУ у второго побогаче. Может они сами попроще, конечно, но в плане портов запуска даже Firestorm переплюнули

lkj
интел против ноутбучных AMD выставляет 2 больших + 8 малых ядра.
Основная плюшка грейсмонт - способность работать в очень широком диапазоне частот без потери эффективности. Поэтому на них легко реализовать столь любимый некоторыми сценарий "сервера-на-пеньке". Ноут отрубит большие ядра, сбросит частоту малых до 200 МГц и будет потреблять примерно нифига в ожидании прерывания.

Добавление от 17.09.2021 03:01:

deadlock
4 ядра gracemont на 80% быстрее 4-x потоков Skylake.
Без указания типа нагрузки это просто маркетинговый трёп
А то ведь окажется, что на самом деле никто никакой грейсмонт ни с каким скайлейком не сравнивал...
Internal Estimates as of June 22, 2021 using internal architecture simulation.
Workload: SPECrate2017_​int_​base estimates with GCC 8.1.0 -O2 binaries


Я даже не удивлюсь если в конце концов от SMT избавятся
Если сохранится тренд на расширение пула ФУ - кратность SMT может и подрасти, ибо может оказаться дешевле гонять 4 фоновых потока на одном ядре. В идеале же надо иметь отключаемый на лету SMT с приоритетами потоков

Исправлено: VDN, 17.09.2021 03:23

lkj
Member
4663/4782 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 17 сентября 2021 10:04
VDN
Основная плюшка грейсмонт - способность работать в очень широком диапазоне частот без потери эффективности. Поэтому на них легко реализовать столь любимый некоторыми сценарий "сервера-на-пеньке". Ноут отрубит большие ядра, сбросит частоту малых до 200 МГц и будет потреблять примерно нифига в ожидании прерывания.

Нет. Для этой задачи хватит даже одного малого ядра, а их у интела там 8 штук.
А вот для M1X как раз этот довод срабатывает. Там всего два малых ядра для фоновых процессов и 8 больших для всего остального.
При этом малое ядро M1 в пике потребляет в 5-10 раз меньше, чем Gracemont в пике. Соответственно и в режиме работы на низкой частоте (например 50% времени одного потока) малое ядро M1 тоже сможет потреблять сильно меньше, чем Gracemont. Поэтому там у M1 и удалось получить неделю работы в режиме "сервер на пеньке" со средним потреблением 0.3 Вт у всего компа.

Для понимания нынешнего положения дел между ядрами интела можно представить такой гипотетический выбор десктопа, ноута, или сервера, который могли бы дать потенциальному покупателю:

Вариант 1: 1 ядро / 2 потока Golden Cove с частотой до 5.0 GHz и потреблением до 25-35 Вт на ядро в пике.

Вариант 2: 4 ядра Gracemont / Skylake 3.9 Ghz без SMT. Это процессор уровня i5-6600, но у которого потребление на полной нагрузке будет не 65 Вт, а 15-20 Вт на 4 потока и 4-5 Вт в однопотоке.

Вот если дать покупателю выбор из таких двух вариантов для ноута, десктопа или сервера, то логично выбрать именно второй вариант, когда число "хороших" ядер в 4 раз больше, а потребление меньше.
BlazeBlaze
Member
1700/1707 ответов, #20 в рейтинге
9 лет на iXBT, с сентября 2015
Чаще пишет Р Р† "Процессоры" (99%)
Инфо
B
BlazeBlaze Member
3 года назад / 17 сентября 2021 10:33
вы предлагаете пользователю потерять в одном варианте или проиграть в другом. а интел предлагает универсальное решение
Omega
Member
4109/5117 ответов, #5 в рейтинге
12 лет на iXBT, с мая 2012
Чаще пишет Р Р† "Процессоры" (84%)
Инфо
O
Omega Member
3 года назад / 17 сентября 2021 10:45
>That means the system will load up one thread per P-core and all the E-cores before moving to the hyperthreads on the P-cores.

там речь идет про старт новых тредов на свободном ядре, по сравнению с загруженным, "чтобы не навредить", а куда их потом перенесет шедулер уже зависит от потребностей кода и формального значения QoS треда.

>1 ядро / 2 потока Golden Cove с частотой до 5.0 GHz и потреблением до 25-35 Вт на ядро в пике.

нет смысла ограничивать потолок частоты или потребления для одного ядра, когда есть лимиты по температуре и току.
bess_temporary
Advanced Member
11258/11375 ответов, #1 в рейтинге
7 лет на iXBT, с января 2018
1 фото на iXBT.photo
Чаще пишет Р Р† "Процессоры" (98%)
Россия, iXBT.com c 1997 г.
Инфо
b
bess_temporary Advanced Member
3 года назад / 17 сентября 2021 12:44
deadlock

> Для увеличения "throughput performance". 4 ядра gracemont на 80% быстрее 4-x потоков Skylake.

А 4 потока - это два ядра. Недаром Интел использует столь осторожные выражения. Ибо "Грейсмонт" всё-таки не быстрее "Скайдейка" даже при равной частоте. В чём-то догоняет, в чем-то значительно отстаёт. Просто он другой, и разработан исходя из других критериев.

> Как видите, SMT на самом конце в плане полезности.

Ничего подобного. Это не сортировка по полезности, это сортировка по возрастанию многопоточной нагрузки. И здесь HT как раз очень нужен - чтобы обеспечить однородность скорости выполнения потоков, и заодно выудить из быстрых ядер ещё немного производительности.

> Вот налепят ещё более мелких ядер, а не "средних" как сейчас.
И привет трёхкластерная архитектура


Не будет. Для достаточно производительного многопоточного процессора это не нужно. Через год сравняют число потоков от больших+HT и от маленьких ядер, а потом подумают, стоит ли наращивать пропорцию в пользу малых. С учётом того, что слишком много потоков, быть может, и не нужно.

VDN

>> Лучше бы реальные свойства процессоров обсуждать
> Так нечего ж обсуждать. Железа на руках ни у кого нет.


Зато есть документ на 350 страниц

>> Нет уж - Skylake, так Skylake. Который намного сложнее, чем Gracemont.
> Насчёт "намного сложнее" - спорно. Набор ФУ у второго побогаче. Может они сами попроще, конечно, но в плане портов запуска даже Firestorm переплюнули


Потому и сделали много портов с раздельными очередями, что так проще. Хотя и не всегда эффективнее. Причём за счёт простых ФУ, которые "дешёвые". И собственно микроархитектура а них гораздо проще. Если большое ядро проектируется из расчёта выжимания производительности отовсюду, то здесь они просто снимают сливки там, где это можно сделать без особого усложнения и повышения потребления. Потому и 1/4 потребления на 1/2 производительности. И 1/4 площади (хотя я думаю, что площадь там побольше, чем 1/4).

>> 4 ядра gracemont на 80% быстрее 4-x потоков Skylake.
> Без указания типа нагрузки это просто маркетинговый трёп


Вот именно !

> Если сохранится тренд на расширение пула ФУ - кратность SMT может и подрасти, ибо может оказаться дешевле гонять 4 фоновых потока на одном ядре.

ХЗ. Сдаётся мне, что ставка в многопотоке делается на примерно равную скорость выполнения. AMT4 это нарушит.

Само собой, я здесь говорю о процессоре для производительного многопоточного использования. Для экономного ультраноута будут другие критерии.

Добавление от 17.09.2021 12:44:

P.S. Надо отметить, что у процессора M1 совсем другие критерии. Попытки выжимать максимум, при это не перебарщивая с потреблением. Отсутствие экономии площади кристалла (размен потребления на площадь, если можно так выразиться). Высокая производительность FP (на такт). Ну и множество вспомогательных ускорителей, сильно помогающих ядрам.

Добавление от 17.09.2021 12:44:

Поэтому сравнивать M1 и Gracemont нельзя (тем более что и техпроцессы у них из разных поколений).
Omega
Member
4111/5119 ответов, #5 в рейтинге
12 лет на iXBT, с мая 2012
Чаще пишет Р Р† "Процессоры" (84%)
Инфо
O
Omega Member
3 года назад / 17 сентября 2021 13:02
>В чём-то догоняет, в чем-то значительно отстаёт. Просто он другой, и разработан исходя из других критериев.

да, очевидно, что ширину между L2<>L3 load\store 32B/cycle одновременно для 4х ядер они обеспечить бы не смогли.
bess_temporary
Advanced Member
11267/11384 ответов, #1 в рейтинге
7 лет на iXBT, с января 2018
1 фото на iXBT.photo
Чаще пишет Р Р† "Процессоры" (98%)
Россия, iXBT.com c 1997 г.
Инфо
b
bess_temporary Advanced Member
3 года назад / 17 сентября 2021 13:05
И много всяких других ширин тоже А L2<>L3 определяется в первую очередь характеристиками кольцевой шины и сегментов L3.
Omega
Member
4112/5120 ответов, #5 в рейтинге
12 лет на iXBT, с мая 2012
Чаще пишет Р Р† "Процессоры" (84%)
Инфо
O
Omega Member
3 года назад / 17 сентября 2021 13:16
bess_temporary
даже если там у ADL будет L2<>L3 64(широкий режим)=(32(узкий режим)+32) то, 4х "скайлейка" это 4*32.
lkj
Member
4664/4783 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 17 сентября 2021 13:41
Omega
нет смысла ограничивать потолок частоты или потребления для одного ядра, когда есть лимиты по температуре и току.

Уже было.
Pentium 4 с SMT c большой частотой и большим потреблением. Тоже не было смысла ограничивать потолок его частоты и потребления?
Потом оказалось, что даже мобильные Pentium-M и экономные AMD были сильно предпочтительнее тех печек Pentium 4 с высокой частотой.
Вот история частично повторяется сейчас. Golden Cove потребляет слишком много, чтобы позволять им работать на полную мощность во многих нишах.
Gracemont - это новый Pentium-M на фоне того Pentium 4.
Перевес у новых атомов над Golden Cove по энергоэффективности и размеру очень большой.
Так на Gracemont можно сделать ноуты и планшеты с пассивным охлаждением, как на армах. На Golden Cove таких вероятно не будут делать. Это уже качественное превосходство. При этом с 8 ядер Gracemont все еще можно снять высокую производительность.
Omega
Member
4114/5122 ответов, #5 в рейтинге
12 лет на iXBT, с мая 2012
Чаще пишет Р Р† "Процессоры" (84%)
Инфо
O
Omega Member
3 года назад / 17 сентября 2021 13:44
>Golden Cove потребляет слишком много, чтобы позволять им работать на полную мощность во многих нишах.

для этого есть cTDP, который ограничивает потребление на весь SoC. И температурные режимы с др. датчиков для не превышения температуры контакта уже собранного мобильного устройства с кожей, есть ещё температурные ограничения для уменьшения риска деградации\повреждения батареи и т.п.
bess_temporary
Advanced Member
11269/11386 ответов, #1 в рейтинге
7 лет на iXBT, с января 2018
1 фото на iXBT.photo
Чаще пишет Р Р† "Процессоры" (98%)
Россия, iXBT.com c 1997 г.
Инфо
b
bess_temporary Advanced Member
3 года назад / 17 сентября 2021 15:25
Golden Cove потребляет примерно столько же, сколько и другие, конкурирующие с ним процессоры (процессорные ядра). Понятия "много" и "мало" относительные. В отсутствие демонстрации уровня "мало" в том же сегменты все подобные утверждения являются глупостью и провокацией. И не требуют опровержений.
lkj
Member
4665/4784 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 18 сентября 2021 17:08
GB4 и GB5 показали, что ПСП не изменилась у A15 относительно A14.
А значит они остались на LPDDR4-4266X, хотя Snapdragon уже почти два года на LPDDR5.

Но самое интересное, как проявит себя у A15 увеличенный с 16 MB до 32 MB кэш в нагрузках Spec.
Вот у Aнанда есть сравнение, которое показывает приросты производительности от замены 16 MB на 32 MB для Zen3:

https://www.anandtech.com/bench/product/2675?vs=2871

Смотреть там надо однопоток.
Например, для Spec-2006-INT:
libquantum: +78% - эта нагрузка вероятно использует ровно 32 MB.
omnetpp: +50%
astar, xalancbmk и gсс тоже дают некоторую прибавку.
У A15 кэш LLC медленный, но прибавка все равно должна быть, хотя бы на том же libquantum.
В итоге A15 на Spec-2006-INT за счет увеличенного кэша вероятно снова покажет хороший прирост - где-то на 12-17%, и сохранится линейный рост у Apple на том графике у Ананда:

678x732, 96.8Kb

Теперь все игроки будут почти в равных условиях:
A15 и Zen3 - по 32 MB кэша, Alder - 30 MB кэша.
Alder и A15 - медленная память по задержкам.
Раньше интел сильно выигрывал за счет хорошей латентности памяти. Но теперь в стоке без разгона DDR5 они этого преимущества лишаются.

Исправлено: lkj, 18.09.2021 17:31

IS_live
Member
264/369 ответов, #26 в рейтинге
13 лет на iXBT, с января 2012
Чаще пишет Р Р† "Процессоры" (67%)
Россия
Инфо
I
IS_live Member
3 года назад / 18 сентября 2021 17:50
Есть мнение, что A15 это почти тот же A14
Соответственно, рост может замедлиться
lkj
Member
4666/4785 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 18 сентября 2021 18:42
IS_live
Ядро то же, а кэш SLC стал в 2 раза больше.
GB5 измеряет больше производительность самого ядра и поэтому он не заметил то увеличение кэша, а Spec2006 - заметит.
Так теперь все топы x86 и Apple A15 будут почти в равных условиях по однопотоку, когда у всех по 30-32 MB кэша.
Большие отличия только по памяти:
A15 - 64-bit 4266
Alder - 128-bit 4800
Zen3 - 128-bit 3200
Но в целочисленном однопотоке увеличенная ширина памяти редко влияет, и поэтому такие сравнения все равно показательны.
В итоге A15 не должен проиграть Alder более 10-20%, хотя частота в 1.6 раза ниже:
https://browser.geekbench.com/v5/cpu/compare/9510991?baseline=9883872

Или Zen3 против A15:
https://browser.geekbench.com/v5/cpu/compare/9896540?baseline=9883872
slasla
Member
1758/15388 ответов, #74 в рейтинге
17 лет на iXBT, с декабря 2007
Чаще пишет Р Р† "Политика" (57%)
Инфо
s
slasla Member
3 года назад / 18 сентября 2021 18:46
lkj
В итоге A15 не должен проиграть Alder более 10-20%, хотя частота в 1.6 раза ниже:
Вы забыли взять логарифм по основанию техпроцесса
Saturn
Member
6190/78628 ответов, #8 в рейтинге
22 года на iXBT, с ноября 2002
139 фото на iXBT.photo
Чаще пишет Р Р† "Фото" (32%)
США, California
Инфо
S
Saturn Member
3 года назад / 18 сентября 2021 18:51
Скоро пойдет 16-й год от основания Рима Spec2006.
lkj
Member
4667/4786 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 18 сентября 2021 18:56
slasla
Новые техпроцессы больше не дают существенного преимущества по скорости. Наглядный пример - Rocket Lake, который на старом техпроцессе выдает высокую частоту и производительность.
Если бы Alder сделали на 14 нм, то он бы выдал бы примерно такую же скорость как и на 7 нм, а большое по площади ядро на 14 нм помогло бы отвести увеличенное тепло.
Новые техпроцессы в основном улучшают потребление.
bess_temporary
Advanced Member
11280/11397 ответов, #1 в рейтинге
7 лет на iXBT, с января 2018
1 фото на iXBT.photo
Чаще пишет Р Р† "Процессоры" (98%)
Россия, iXBT.com c 1997 г.
Инфо
b
bess_temporary Advanced Member
3 года назад / 18 сентября 2021 19:00
lkj

> Вот у Aнанда есть сравнение, которое показывает приросты производительности от замены 16 MB на 32 MB для Zen3:

Здесь L3 имеет довольно высокую латентность.

> Alder и A15 - медленная память по задержкам.

Sure ?

Да, и зачем SPEC 2006 ?

IS_live

> Есть мнение, что A15 это почти тот же A14
Соответственно, рост может замедлиться


Да, ещё год назад стало более-менее ясно, что на этом этапе они упёрлись. Конечно, будут ещё этапы. Но не сразу.

slasla

> Вы забыли взять логарифм по основанию техпроцесса



А если всерьёз, то нельзя сравнивать универсальную модульную систему и процессор неширокого применения, жёстко привязанный к 4-ядерной конфигурации с уникальным кэшем. Ребята научились в микроархитектуре для некрупных задач. Теперь предстоит научиться строить системы, жертвуя кое-чем из достигнутого ради многопоточной производительности и многопрофильности. На факт, что они далеко пойдут в этом направлении. Сделают несколько частных конфигураций для своих основных продуктов и будут пилить их дальше. А мир продолжит идти всем остальным многообразием путей развития

Добавление от 18.09.2021 19:00:

Saturn

> Скоро пойдет 16-й год от основания Рима Spec2006.

Генералы играют в прошедшие войны. В том смысле, что он начал устаревать уже в 2006-м.
lkj
Member
4668/4787 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 18 сентября 2021 19:02
Saturn
Скоро пойдет 16-й год от основания Рима Spec2006.

Были исследования, что Spec2017 меньше зависит от памяти, чем Spec2006, а значит Spec2017 в среднем сильнее помещается в кэше.
Поэтому процессоры Epyc даже с относительно слабой памятью в 2 раза обходили процессоры Xeon в Spec2017-INT-RATE, увеличив число ядер в 2 раза.

А Spec2006 все же создает существенную нагрузку за пределами 4-8 MB, и поэтому все еще подходит для оценки кэша и памяти.

Даже тот же libquantum.
Если он поместится в 32 MB в однопотоке, он не будет помещаться в кэше на многопотоке. Поэтому в spec2006-rate он должен упереться в память, и бенчмарк будет зависеть от ПСП, чего мало в новом Spec2017-int-rate.

Есть процессор, который протестировали во всех тестах Spec2006/Spec2017 - Байкал A57 на 1.5 GHz:

56.7 / 9.2 = 6.163 SPEC CINT2006
55.7 / 9.0 = 6.188 SPEC CFP2006
7.92 / 1.15 = 6.988 SPECrate2017_int
8.01 / 1.29 = 6.209 SPECrate2017_fp
Идеальное масштабирование, когда нет зависимости от памяти и общего кэша должно дать 8.0 для 8-ядерного Байкала.
SPECrate2017_int показал наиболее близкий результат - 7.0

Для 64-ядерного Graviton2 Spec-int-2017 тоже меньше зависит от памяти:

1141 / 32.34 = 35.281 int-2006
1017 / 37.33 = 27.243 fp-2006

169.87 / 3.70 = 45.910 int-2017
158.51 / 5.13 = 30.898 fp-2017
650x1000, 40.5Kb

650x900, 36.7Kb

Даже тест gcc_r стал сильнее помещаться в кэше в Spec-2017, чем в Spec-2006.
Поэтому рано заменять Spec-2006 на Spec-2017. Spec-2006 все еще сильнее учитывает память и кэш в результатах, а не только ядро.

libquantum показал наихудшие результаты по масштабированию, а значит libquantum сильнее всех остальных нагрузок Spec2017-INT и Spec2006-INT зависит от ПСП.
Вот во всех тестах, где графики не показывают идеальное масштабирование от увеличения числа ядер, и можно ожидать какие-то улучшения в A15 из-за увеличенного кэша SLC. И таких нагрузок больше в Spec-2006, чем в Spec-2017.

Исправлено: lkj, 18.09.2021 20:23

VDN
Member
3660/16132 ответов, #17 в рейтинге
21 год на iXBT, с апреля 2003
Чаще пишет Р Р† "Политика" (27%)
Инфо
V
VDN Member
3 года назад / 18 сентября 2021 19:58
lkj
Поэтому рано заменять Spec-2006 на Spec-2017, если хотим сильнее учитывать память и кэш в результатах, а не только ядро.
У вас "не" не в том месте, должно быть перед "хотим" В идеале для максимально бесполезного результата нужен тест с датасетом, помещающимся в L1
lkj
Member
4669/4788 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 18 сентября 2021 20:21
VDN
В идеале для максимально бесполезного результата нужен тест с датасетом, помещающимся в L1

Ну, например, кто-нибудь сделает тест FMA, который помещается в L1.
Это будет бесполезный тест?
Мы не хотим знать пиковые флопсы ядра?
Обязательно ли в тесте замедлять эти флопсы обращениями в память?

Все стремятся сделать алгоритмы для реальных нагрузки так, чтобы они не замедлялись внешними факторами за пределами ядра. Обычно это не удается, но иногда удается. Например, сложная криптография вероятно помещается в L1 или L2. Тест скорости такой криптографии - это тоже бесполезный результат? Не показывает ли он реальную силу ядра?

Исправлено: lkj, 18.09.2021 20:24

Saturn
Member
6191/78633 ответов, #8 в рейтинге
22 года на iXBT, с ноября 2002
139 фото на iXBT.photo
Чаще пишет Р Р† "Фото" (32%)
США, California
Инфо
S
Saturn Member
3 года назад / 18 сентября 2021 20:23
lkj
Например, сложная криптография
очень часто перекошена тем что в какие-то процессоры засунули пару спецкоманд для ускорения вот данного метода а в другие - нет.
VLev
Expert
12334/20394 ответов, #2 в рейтинге
23 года на iXBT, с января 2002
6 фото на iXBT.photo
Чаще пишет Р Р† "Процессоры" (64%)
Россия, Moscow
Инфо
V
VLev Expert
3 года назад / 18 сентября 2021 20:49
lkj Ну, например, кто-нибудь сделает тест FMA, который помещается в L1.
Это будет бесполезный тест?

да, бесполезный.
Даже классический тест FMA HPL, к которому очень много претензий по поводу перекоса в пик FMA, и то имеет датасет, не помещающий ни в какой из кэшей
lkj
Member
4670/4789 ответов
22 года на iXBT, с июня 2002
Чаще пишет Р Р† "Процессоры" (97%)
Инфо
l
lkj Member
3 года назад / 18 сентября 2021 21:11
VLev
Если мы знаем пиковую производительность, то любой результат, который будет ниже пика, можно попытаться улучшить разными способами. Но для этого лучше знать этот пик.

Это касается любой нагрузки.
Для любой нагрузки обычно рассматривают разные датасеты, которые полностью помещаются в кэше и которые не помещаются. Их сравнивают, и если видят падение производительности, то их пытаются устранить. В идеальном варианте скорость должна совпасть, чтобы падения не было. Если не хотят жертвовать падением, то могут и ужать датасет.
Поэтому скорость нагрузки "внутри ядра" важна, как идеал скорости, к которому все стремятся для любой задачи.

Ampere Altra MAX содержит 128 ядер по 1 MB локального кэша L2, и 16 MB общего кэша L3. Очевидно, что те 16 MB перестают играть важную роль, и фактически каждое ядро рассчитывает только на свой локальный 1 MB кэша L2.
Вон на тех картинках выше и видно, для каких нагрузок Spec2006/Spec2017 хватает локального кэша в 1 MB. И таких нагрузок много в Spec-Int и Spec-FP.
Если Вы считаете это сообщение ценным для дискуссии (не обязательно с ним соглашаться), Вы можете поблагодарить его автора, а также перечислить ему на счет некоторую сумму со своего баланса (при отзыве благодарности перечисленная сумма не будет вам возвращена).
Также вы можете оценить сообщение как неудачное.
В течение суток можно 20 раз оценить сообщения разных участников (купите Premium-аккаунт, либо оплачивайте оценки сверх лимита).
Страницы:Кликните, чтобы указать произвольную страницуназад105далее
Продолжение темы здесь
08:32В этом новый iPhone дешевле $500 будет похож на iPhone 15 Pro и iPhone 16: он получит Apple A17 Pro или A18, а также функции Apple Intelligence
23:20вчераВот сколько вы потеряете, если купите смартфон с урезанной SoC Snapdragon 8 Elite. Платформа впервые засветилась в бенчмарке
23:06вчераРазработка процессора Sony PlayStation 6 уже завершена. Первые экземпляры чипа будут у Sony в конце года
14:39вчераТоповая платформа MediaTek Dimensity 9400+ выйдет уже в марте. Первые фотофлагманы выпустят Oppo и Vivo
12:47вчераSamsung попросила TSMC выпускать для неё 3-нм чипы Exynos. TSMC ответила категорическим отказом
11:45вчераТоповый чип Snapdragon 8 Elite и самый дешёвый смартфон на этой платформе. Realme GT 7 появится в феврале 2025
11:41вчераБудьте осторожны, на рынке появились поддельные Ryzen 7 9800X3D. Китайские умельцы добрались до хита AMD
10:35вчера«Чудо следующего десятилетия». В Nvidia считают, что полностью беспилотные машины с её чипами и ПО появятся после 2030 года
3 дня назадБудьте осторожны, теперь существует урезанная версия SoC Snapdragon 8 Elite, которая называется ровно так же
3 дня назадНет, Intel, лучше не стало. Core Ultra 9 285K с новым патчем порой даже хуже, чем был, а с Ryzen 7 9800X3D и сравнивать нет смысла
Новые фото на ixbt.photo
Отключите эту колонку в личном кабинете.