kindersurprise
Даёт ли ring\direct арбитраж преимущество для кэшируемых операций или эта топология для gather\scatter? — к операциям сбора/посева она отношение не имеет. Но арбитраж точно должен давать преимущество. Представьте, что ядро А обращается по адресу, относящемуся к банку L3 Б, где промах, но в его тегах указано, что данные есть в L2 ядра В. Тогда требуется ещё 3 пересылки: запрос Б—>В, копия В—>А и копия В—>Б. Если же А=Б (т.е. привязка ядра к своему диапазону адресов), то всё будет куда быстрее и сейчас, и при дальнейших запросах. Однако интересно, как будут работать предзагрузы в L2 и L3.
bess
коммутаторы другого типа, как мы видим по процессорам AMD, имеют очень серьезные ограничения. Даже 8 ядер связать однородным образом у них не получилось — тут у каждого ядра, видимо, нужен 6х2-портовый агент (в 4 соседних ядра, к L3 и к L2). Очевидно, справились.
{в Зене} при обращении к чужой половине L3-кэша блок данных копируется в свою половину - и в результате в кэшах будут сидеть две копии — это сейчас их две, пока ядер 8. У Неаполя будет до 8 комплексов ССХ. Складывается впечатление, что это временное решение. Иначе оно очень неудачное — межкомплексная шина медленная, а максимальный объём общих для всех ядер данных не превысит 8 МБ независимо от числа ядер. Думаю, АМД придётся ускорить межъядерную или межкомплексную связь, а L2+L3 перебалансировать с 0,5+2 МБ/ядро до 1+1,5.
lkj
Тесты SKL-X 12 cores уже есть. Латентность L3 примерно 10 ns (40 тактов) — при частоте 3 ГГц там не 40. Задержки по кэшу L1D тоже не внушают доверие. Минимум 4 такта для РОНов должно быть (либо турбо на 3,6 ГГц). И цифры грязные: судя по ступеньке у 256 КБ, явно пользовались страницами на 4 КБ, и TLB L1D кончился. С др. стороны, явно видно плавное поднятие задержек, как только кончается местный L2. Если тест 1-поточный (высокая турбо-частота это доказывает), то он сможет удержать максимум 1+1,375*12=17,5 МБ данных и потом полезет в ОЗУ. Так что задержка 23,9 нс (72-86 тактов, в т.ч. промахи в обоих TLB) для 16 МБ вполне представительна. Хреновенько…
Даёт ли ring\direct арбитраж преимущество для кэшируемых операций или эта топология для gather\scatter? — к операциям сбора/посева она отношение не имеет. Но арбитраж точно должен давать преимущество. Представьте, что ядро А обращается по адресу, относящемуся к банку L3 Б, где промах, но в его тегах указано, что данные есть в L2 ядра В. Тогда требуется ещё 3 пересылки: запрос Б—>В, копия В—>А и копия В—>Б. Если же А=Б (т.е. привязка ядра к своему диапазону адресов), то всё будет куда быстрее и сейчас, и при дальнейших запросах. Однако интересно, как будут работать предзагрузы в L2 и L3.
bess
коммутаторы другого типа, как мы видим по процессорам AMD, имеют очень серьезные ограничения. Даже 8 ядер связать однородным образом у них не получилось — тут у каждого ядра, видимо, нужен 6х2-портовый агент (в 4 соседних ядра, к L3 и к L2). Очевидно, справились.
{в Зене} при обращении к чужой половине L3-кэша блок данных копируется в свою половину - и в результате в кэшах будут сидеть две копии — это сейчас их две, пока ядер 8. У Неаполя будет до 8 комплексов ССХ. Складывается впечатление, что это временное решение. Иначе оно очень неудачное — межкомплексная шина медленная, а максимальный объём общих для всех ядер данных не превысит 8 МБ независимо от числа ядер. Думаю, АМД придётся ускорить межъядерную или межкомплексную связь, а L2+L3 перебалансировать с 0,5+2 МБ/ядро до 1+1,5.
lkj
Тесты SKL-X 12 cores уже есть. Латентность L3 примерно 10 ns (40 тактов) — при частоте 3 ГГц там не 40. Задержки по кэшу L1D тоже не внушают доверие. Минимум 4 такта для РОНов должно быть (либо турбо на 3,6 ГГц). И цифры грязные: судя по ступеньке у 256 КБ, явно пользовались страницами на 4 КБ, и TLB L1D кончился. С др. стороны, явно видно плавное поднятие задержек, как только кончается местный L2. Если тест 1-поточный (высокая турбо-частота это доказывает), то он сможет удержать максимум 1+1,375*12=17,5 МБ данных и потом полезет в ОЗУ. Так что задержка 23,9 нс (72-86 тактов, в т.ч. промахи в обоих TLB) для 16 МБ вполне представительна. Хреновенько…
Исправлено: Felid, 16.06.2017 17:17