Вышла Cuda Toolkit Documentation 12.8
https://docs.nvidia.com/cuda/#
Ща почитаем![](/smile.svg)
Игровые теперь поддерживают интересные мне фичи, введённые в Hopper, в том числе новая иерархия тредов/общей памяти
Distributed Shared Memory
Thread Block Cluster
а также
DPX Instructions for Accelerated Dynamic Programming
Tensor Memory Accelerator (TMA) unit
Из неожиданного, поддерживается Quad-Precision Floating-Point арифметика float128
Но табличку Table 4 Throughput of Native Arithmetic Instructions. (Number of Results per Clock Cycle per Multiprocessor)
пока не обновили, так что непонятно насколько быстро это выполняется
https://docs.nvidia.com/cuda/#
Ща почитаем
Добавление от 24.01.2025 03:17:
У BlackWell CC 10.0 и 12.0 (игровой).Игровые теперь поддерживают интересные мне фичи, введённые в Hopper, в том числе новая иерархия тредов/общей памяти
Distributed Shared Memory
Thread Block Cluster
а также
DPX Instructions for Accelerated Dynamic Programming
Tensor Memory Accelerator (TMA) unit
Из неожиданного, поддерживается Quad-Precision Floating-Point арифметика float128
Но табличку Table 4 Throughput of Native Arithmetic Instructions. (Number of Results per Clock Cycle per Multiprocessor)
пока не обновили, так что непонятно насколько быстро это выполняется
Добавление от 24.01.2025 03:33:
С Hopper есть обратная совместимость. Код можно собирать старой Cuda с CC 9.0