ConstWilDТ.е. по вашему обучение нейронок на w3-2423, будет всего лиш в 20 раз медленней чем на RTX 4090? 20 раз - это разница в inference между Llama на RTX 6000 Ada и W7-3465X без включения AMX, как помню, пока лезет и там и сям, как только не лезет в VRAM - ну... начинается урезка битности и модель, процитирую себя
"Нести херню" - не самое технически точное описание процессов в электронике
потом и резка битности не помогает
Добавление от 06.10.2024 23:24:
vadim.itсколько млрд параметров не очень много - должно было влезать в один GV100 с его блистательными 16GB VRAM, и чтобы еще было место для данных что летели туда-сюда
Добавление от 06.10.2024 23:30:
ConstWilDОК, пример понял. видно не поняли - дело не в том как быстро работает на Xeon вот сейчас, а то что "как быстро работает" (даже на GPU) - вообще недоопределенное выражение, вот разница в 2 раза по времени, а делов - на одну строчку
потом такие же вопросы на Xeon - что можно ускорить на AMX прям сейчас, а что - нет
но Llama 3.1 405B занимая 750GB RAM в Xeon лезет, а в VRAM - не влезет даже в пачку ну скажем в 4x4090