Страницы:Кликните, чтобы указать произвольную страницуназад123111213141516
sergen: nvidia cuda
VLev
Expert
18356/28432 ответов, #2 в рейтинге
23 года на iXBT, с января 2002
6 фото на iXBT.photo
Чаще пишет в "Процессоры" (64%)
Россия, Moscow
Инфо Ответить
V
VLev Expert
25 дней назад / 24 января 2025 03:33
Вышла Cuda Toolkit Documentation 12.8
https://docs.nvidia.com/cuda/#
Ща почитаем

Добавление от 24.01.2025 03:17:

У BlackWell CC 10.0 и 12.0 (игровой).
Игровые теперь поддерживают интересные мне фичи, введённые в Hopper, в том числе новая иерархия тредов/общей памяти
Distributed Shared Memory
Thread Block Cluster
а также
DPX Instructions for Accelerated Dynamic Programming
Tensor Memory Accelerator (TMA) unit

Из неожиданного, поддерживается Quad-Precision Floating-Point арифметика float128
Но табличку Table 4 Throughput of Native Arithmetic Instructions. (Number of Results per Clock Cycle per Multiprocessor)
пока не обновили, так что непонятно насколько быстро это выполняется

Добавление от 24.01.2025 03:33:

С Hopper есть обратная совместимость. Код можно собирать старой Cuda с CC 9.0
mm112
Member
118/635 ответов, #78 в рейтинге
7 лет на iXBT, с августа 2017
Чаще пишет в "Фото" (27%)
Инфо Ответить
m
mm112 Member
25 дней назад / 24 января 2025 14:30
а почему скорость половинной точности равна скорости одинарной точности?
VLev
Expert
18357/28435 ответов, #2 в рейтинге
23 года на iXBT, с января 2002
6 фото на iXBT.photo
Чаще пишет в "Процессоры" (64%)
Россия, Moscow
Инфо Ответить
V
VLev Expert
25 дней назад / 24 января 2025 14:58
mm112 а почему скорость половинной точности равна скорости одинарной точности?
Зависит от того в каких блоках эти операции происходят, и как эти блоки организованы. В актуальных случаях различие может от 1 до 4 составлять.
1 -- если ограничение по управлению вычислениями (числу команд),
2 -- если ограничение по пропускной способности канала доступа к данным,
4 -- если ограничение по алгоритмической сложности умножения.
Ну и ещё разные форматы чисел есть, типа TF32, которые по сложности умножения эквивалентны fp16
mm112
Member
119/636 ответов, #78 в рейтинге
7 лет на iXBT, с августа 2017
Чаще пишет в "Фото" (27%)
Инфо Ответить
m
mm112 Member
25 дней назад / 24 января 2025 15:09
вопрос конкретно про Nvidia 5090
(у Intel Battlemage например всё правильно - FP16 в два раза быстрее, чем FP32)
VLev
Expert
18358/28436 ответов, #2 в рейтинге
23 года на iXBT, с января 2002
6 фото на iXBT.photo
Чаще пишет в "Процессоры" (64%)
Россия, Moscow
Инфо Ответить
V
VLev Expert
25 дней назад / 24 января 2025 15:28
mm112

вопрос конкретно про Nvidia 5090
В рекламных материалах в 8 раз больше.
В доке по cuda табличка пока старая, но для сс9.0 различие вдвое.

(у Intel Battlemage например всё правильно - FP16 в два раза быстрее, чем FP32)
Ещё раз -- "правильно" может быть в диапазоне от 1 до 4.
VLev
Expert
18359/28437 ответов, #2 в рейтинге
23 года на iXBT, с января 2002
6 фото на iXBT.photo
Чаще пишет в "Процессоры" (64%)
Россия, Moscow
Инфо Ответить
V
VLev Expert
25 дней назад / 24 января 2025 15:28
.
К сообщению приложены файлы:
VLev
Expert
18360/28438 ответов, #2 в рейтинге
23 года на iXBT, с января 2002
6 фото на iXBT.photo
Чаще пишет в "Процессоры" (64%)
Россия, Moscow
Инфо Ответить
V
VLev Expert
25 дней назад / 24 января 2025 15:32
темп выполнения
К сообщению приложены файлы:
Ваш ответ:

Нет значка Нет значка Вот тут! Лампочка Восклицание Вопрос Класс! Улыбка Злость Огорчение Поговорим? Краснею Подмигивание Ругаю ОдобряюBIUdelSxsupxsuboffsp spoilerqurlimgvideo• list1. list1 codeprecenter-hr-rusQWE→ЙЦУ
файлыочистить
Ваше имя: Авторизуйтесь Предпросмотр В полную форму
вставить выделенную цитату в окно ответа
Если Вы считаете это сообщение ценным для дискуссии (не обязательно с ним соглашаться), Вы можете поблагодарить его автора, а также перечислить ему на счет некоторую сумму со своего баланса (при отзыве благодарности перечисленная сумма не будет вам возвращена).
Также вы можете оценить сообщение как неудачное.
В течение суток можно 20 раз оценить сообщения разных участников (купите Premium-аккаунт, либо оплачивайте оценки сверх лимита).
Если Вы считаете это сообщение ценным для дискуссии (не обязательно с ним соглашаться), Вы можете поблагодарить его автора, а также перечислить ему на счет некоторую сумму со своего баланса (при отзыве благодарности перечисленная сумма не будет вам возвращена).
Также вы можете оценить сообщение как неудачное.
В течение суток можно 20 раз оценить сообщения разных участников (купите Premium-аккаунт, либо оплачивайте оценки сверх лимита).
Страницы:Кликните, чтобы указать произвольную страницуназад123111213141516
Последние обсуждения в Конференции
07:00Рђ что там Сѓ РќР• аудиофилов . Современные тенденции... Стерео
06:58Микроархитектура Lion Cove. Мобильные процессоры Intel Lunar Lake / десктопные LGA 1851 Arrow Lake Процессоры
06:58Авиатранспорт, авиакомпании, перелеты Отдых
06:58Организация Рё оптимизация воздушного охлаждения компьютера - анализ Рё практические советы (обязательно читать FAQ!). Разгон
06:56Кто-то хочет РІ РЎРЎРЎР ? История
06:53Сисадминская курилка Администрирование
06:53Будет ли РІРѕР№РЅР° Р РѕСЃСЃРёРё СЃ Украиной? Политика
06:53Аккумуляторные батареи для ИБП: выбор, замена, профилактика, установка батарей большей емкости, использование внешних батарей Корпуса, БП
06:53Сетевая солнечная электростанция РґРѕРјР° Эл. устройства
06:48Выбор РїРѕСЃСѓРґС‹ для приготовления пищи (СЃРєРѕРІРѕСЂРѕРґ, кастрюль Рё С‚.Рґ.) Кулинария
06:47Сайт www.mos.ru Общий
06:46Diablo IV (4). Релиз 06.06.2023! Игры
06:46Протягивание РїСЂРѕРІРѕРґР° РІ кабель-канале Сети
06:41День рождения brora Флуд
06:40Р’СЃС‘ Рѕ сабвуферах ДК аудио
06:40Автоматические кофемашины Рё аксессуары Рє РЅРёРј. Выбор, обсуждение, эксплуатация. Бытовая техника
06:39Nvidia GeForce RTX 5070/Ti, 5080, 5090 [Blackwell] Видеосистема
06:33Флудилка: Обсуждение организации рабочего места Рё его освещения, параметров дисплеев, настроек изображения. Мониторы
06:30История редактирования Рё удаления РјРѕРёС… сообщений О Конфе
06:23Выбор Рё настройка оперативной памяти DDR5 (читать первую страницу!) Память
21:53вчераЭто как топовые процессоры Apple M Max, только от AMD. Обзоры Ryzen AI Max могут быть опубликованы уже завтра
14:35вчераНовейший чип Apple M5 дебютирует в MacBook Pro уже этой осенью
14:26вчераПервые ноутбуки MacBook Air с чипами Apple M4 выйдут до конца марта
10:32вчераArm выпустит свой первый в истории процессор в 2025 году. Назван первый заказчик
07:52вчераПервый смартфон на Snapdragon 8 Elite 2. Xiaomi 16 Pro получит плоский дисплей диагональю 6,85 дюйма, который достанется и Xiaomi 16 Ultra
07:35вчера«Тайвань вложил полвека упорного труда в достижение сегодняшнего успеха. Мы ничего не забирали у других стран». Тайвань готов стать базой в мировой цепочке поставок полупроводников
2 дня назадНеожиданно не самые старые процессоры Intel удалены из списка поддерживаемых Windows 11 24H2. Это коснулось даже Core 10-го поколения
2 дня назадIntel разделят и продадут? Broadcom заинтересована в подразделении Intel по разработке чипов, а TSMC положила глаз на фабрики
3 дня назадПока Intel в очередной раз выпускает то же самое с новыми именами, AMD готовится предложить 24-ядерные Ryzen 9. Линейка Zen 6 будет большим шагом вперёд
3 дня назадНовая платформа MediaTek Dimensity 6400 — это почти то же самое, что Dimensity 6100 Plus из 2023 года
20+ лет назад в этот день обсуждали
Р’ чем разница между шрифтами? OС и сист. ПО
РќРµ РѕРґРёРЅ Детонатор РЅРµ работает начиная СЃ версий 27.20 ?? Help! Видеосистема
Сеть Desktop-Notebook - Bluetooth или WiFi? Сети
Че Р·Р° ботва (СЂ7389)? Моб. телефоны
Транслятор РєРѕРґР°... Программирование
Драйвера Рє Live! model:SB0060 ??? Live! 1024 Цифр.звук
РўРѕСЂРіСѓСЋ 2 недели без пробития РІ кассу. Являюсь ЧП. Что делать ? Общий
Р­РєРѕРЅРѕРјРёРєР° Р РѕСЃСЃРёРё: реалии Рё перспективы развития Политика
Какой темп. предел Сѓ материнки? Разгон
W2K_serv: routing & брандмауэр(встроенный) VS proxy & firewall??? Что лучше Рё почему? Администрирование
Загадочный CDROM drive Оптич. носители