x86 против arm, power, sparc, gpu, cell и других. (часть 4)
(Продолжение темы здесь)

Версия для печати (стр. 10)

Конференция: Конференция iXBT.com (http://forum.ixbt.com/)
Форум: Процессоры (http://forum.ixbt.com/?id=8)
URL: http://forum.ixbt.com/topic.cgi?id=8:23952


Страницы: назад · 1 2 3 5 6 7 8 9 10 11 12 13 14 15 19 20 21 · далее / все сообщения темы на одной странице

2467. Mumie01, 14.01.2013 22:06
YgriK
если разработчик девайса не в состоянии собрать прошивку под свой девайс... то ну его нафик такого разработчика.
Не надо кормить бездарей, тогда и бардака будет меньше

Я вас не понял, вы хотите сказать что разработчик сам должен писать драйвера под девайсы (IP) от сторонних вендоров? PowerVR продаёт IP, значит должен поставлять и драйвера для этих IP. Вы же, я надеюсь, не ожидаете от, например Асуса писать графические драйвера для лэптопов которые они продают.

Добавление от 14.01.2013 22:07:

YgriK
а эт чё?

А это OpenGL ES. И что с ним делать под линухом?

2468. YgriK, 14.01.2013 22:13
Mumie01
разработчик девайса кроме железа берёт ещё и софт для этого железа. Разработчик железа поставляет драйвера и софт. Если обе эти стороны не могут договориться, то такие девайсы надо спускать в унитаз

тоесть комуто из юзеров на ARM SoC позарез понадобился десктопный ГЛ? Правда-правда? ЗАЧЕМ?

2469. Mumie01, 14.01.2013 22:27
YgriK
разработчик девайса кроме железа берёт ещё и софт для этого железа. Разработчик железа поставляет драйвера и софт. Если обе эти стороны не могут договориться, то такие девайсы надо спускать в унитаз

Тут вопрос в том, существуют ли такой софт от разработчика IP вообще. Или это только сказки.

тоесть комуто из юзеров на ARM SoC позарез понадобился десктопный ГЛ? Правда-правда? ЗАЧЕМ?

Вопрос не ко мне. Тут выше уверяли что может понадобится и DX11 и OpenGL 4.

2470. YgriK, 14.01.2013 22:32
Mumie01
Тут выше уверяли что может понадобится и DX11 и OpenGL 4
бедняшки...

2471. Mumie01, 14.01.2013 23:14

Кстати, Интел обьяснил 7W SDP.

http://arstechnica.com/gadgets/2013/01/the-technical…-ivy-bridge-cpus/

2472. YgriK, 14.01.2013 23:20
Mumie01
интересно что лучше - разогнанный атом или заторможенный иви/хасвел?

2473. AI, 14.01.2013 23:30
YgriK
интересно что лучше - разогнанный атом или заторможенный иви/хасвел?
не, ни так

есть сотня-другая виртуальных машин (напр. сайты аля страничка на народ-ру)
(просто это задача которая хорошо распараллеливается, и нет накладных расходов на синхронизацию этой сотни потоков, т.е. сбор данных в одну кучу)
есть TPD 100w, выше которого сложно отводить. (допустим)

и вопрос - что лучше сделать - десять десятиватных атомов на одном сокете, или один 100ватный иви?
а может лучше сотню одноватных ARM запихать?

PS производители GPU, например, пошли по последнему алгоритму.

2474. YgriK, 14.01.2013 23:43
AI
гпу всегда шли по последнему варианту изза самой природы 3д

и нет накладных расходов на синхронизацию этой сотни
сразу ведро дёгтя в бочку мёда

2475. ssvb, 15.01.2013 00:41
цитата:
xma:
ssvb, давайте всё mtk 6575 . 32-bit float 1 GFlops ?
Это Cortex-A5? Я с ним пока никаких дел не имел и ничего про него толком не знаю.Хмм, это какая-то левая первая ссылка всплыла в поиске, прошу извинить

Похоже там одноядерный Cortex-A9 1GHz - http://en.wikipedia.org/wiki/MediaTek , http://www.mediatek.com/_en/03_news/01-2_newsDetail.php?sn=1052

2476. deadlock, 15.01.2013 03:27
MP6530 - смартфонный двух-ядерный A15 от Renesas с big.LITTLE (2+2) и встроенным модемом 4G 150MBit/s

http://cdn.eetimes.com/design/communications-design/…tle-LTE-processor

2477. Wizardry VII, 15.01.2013 05:34
TbILI
На родном ixbt'е пишут что
Там же пишут что про Тегру4 почти ничего неизвестно

2478. Gull, 15.01.2013 10:07
http://www.freelists.org/post/luajit/LuaJIT-SciMark-…telARM-comparison

Absolute LuaJIT SciMark scores (higher is better):

785.4 Intel Core 2 E8400, 3.0 GHz
124.7 Intel Atom N270, 1.6 GHz
118.4 Asus Transformer Prime, Nvidia Tegra 3, ARM Cortex-A9, 1.3 GHz
76.7 HTC EVO 3D, Qualcomm Snapdragon S3, ARM Cortex-A8+, 1.2 GHz
32.4 Beagleboard xM, TI DM3730, ARM Cortex-A8, 1.0 GHz
27.5 Raspberry Pi, Broadcom BCM2835, ARM 1176JZF-S, 0.7 GHz

LuaJIT SciMark scores weighted by GHz:

261.8 Intel Core 2 E8400
91.1 ARM Cortex-A9
77.9 Intel Atom N270
63.9 ARM Cortex-A8+
39.3 ARM 1176JZF-S
32.4 ARM Cortex-A8

2479. deadlock, 15.01.2013 12:51
бенчмарки Lua - это сила =)

2480. xma, 15.01.2013 21:27
ssvb, не нашёл там gflops, ?

2481. Vkni, 16.01.2013 05:59
Gull

Эти ваши очки, они хотя бы примерно пропорциональны производительности? В смысле, если взять 2 компа, один из которых ровно в 2 раза быстрее второго по всем параметрам, то очков будет в 2 раза больше? Или в полтора?

2482. Marat Dukhan, 16.01.2013 07:06
цитата:
Marat Dukhan:
Всё тот же тест компиляции, Arndale Board (Cortex-A15/Exynos 5250 @ 1.70GHz1.00GHz/2C/2T)
$ git clone git://github.com/joyent/node.git
$ cd node
$ ./configure
$ time make -j2


real 13m42.170s
user 22m46.460s
sys 1m54.030s


Тот же тест, Odroid-U2 Board (Cortex-A9 @ 1.70GHz/4C/4T) + eMMC Module
$ git clone git://github.com/joyent/node.git
$ cd node
$ ./configure
$ time make -j4


real 6m44.149s
user 23m43.805s
sys 0m57.425s

2483. Vkni, 16.01.2013 07:20
2 Marat Dukhan:

То есть, на компиляции A15 быстрее A9 в 1.7 раза? (соотношение частот)

2484. Marat Dukhan, 16.01.2013 10:05
Vkni
То есть, на компиляции A15 быстрее A9 в 1.7 раза? (соотношение частот)
Выглядит правдоподобно. Правда, стоит учесть, что Cortex-A9 использовал быструю флэшку, а A15 - ту, которая шла к нему в комплекте.

2485. ssvb, 16.01.2013 11:16
Marat Dukhan
Интересно. А как ODROID-U2 себя ведёт на компиляции при использовании только двух ядер? ODROID-X показывал не очень хорошую масштабируемость при переходе с двух на четыре ядра: x86 против arm, power, sparc, gpu, cell и других. (часть 4), #1717 (http://forum.ixbt.com/topic.cgi?id=8:23952:1717#1717)
У меня было предположение, что тут сильно влияет размер L2 кэша (и то, что он совместно используется всеми ядрами), которое вроде бы подтвердилось: x86 против arm, power, sparc, gpu, cell и других. (часть 4), #1734 (http://forum.ixbt.com/topic.cgi?id=8:23952:1734#1734)
Можете попробовать повторить данные тесты на ODROID-U2?

Правда, стоит учесть, что Cortex-A9 использовал быструю флэшку, а A15 - ту, которая шла к нему в комплекте.
Это не проблема. При необходимости tmpfs всегда может уравнять шансы

Добавление от 16.01.2013 11:31:

xma
не нашёл там gflops, ?
Теоретические флопсы для Cortex-A9 можете посчитать сами по информации из этих табличек:
* http://infocenter.arm.com/help/topic/com.arm.doc.ddi…i/ch02s03s02.html (скалярный код, single и double precision)
* http://infocenter.arm.com/help/topic/com.arm.doc.ddi…09i/BCGJIBBD.html (SIMD код, single precision)

Но при оптимизации NEON кода для Cortex-A9 всё же лучше использовать табличку от Cortex-A8 - http://infocenter.arm.com/help/topic/com.arm.doc.ddi…44k/BCGDCECC.html
Дело в том, что в этой части NEON юнит у них практически идентичен, а документация для Cortex-A8 содержит важные дополнительные пояснения:

цитата:
The VMLA.F, VMLS.F, VRECPS.F, VRSQRTS.F instructions begin execution on the floating-point multiply pipeline. The floating-point multiply result is then forwarded to the floating-point add pipeline to complete the accumulate portion of the instructions. Therefore, these instructions are pipelined across ten stages, N1 through N10, where N10 is the writeback stage.

Note

The VMLA.F and VMLS.F type instructions have additional restrictions that determine when they can be issued:
* If a VMLA.F is followed by a VMLA.F with no RAW hazard, the second VFMLA.F issues with no stalls.
* If a VMLA.F is followed by an VADD.F or VMUL.F with no RAW hazard, the VADD.F or VMUL.F stalls 4 cycles before issue. The 4 cycle stall preserves the in-order retirement of the instructions.
* A VMLA.F followed by any NEON floating-point instruction with RAW hazard stalls for 8 cycles.
Я попытался зарепортить данную проблему и попросил, чтобы они также добавили эту информацию и в документацию для Cortex-A9, но они совсем не чешутся. В любом случае, всегда измеряйте реальное количество тактов для любой последовательности кода. Вы могли неправильно понять документацию, совершить ошибку, либо просто определённые детали могут быть в документации не раскрыты в полном объёме.

Практически достижимые флопсы для двойной точности можете найти здесь (сделав поправку на частоту и количество ядер вашего процессора) : x86 против arm, power, sparc, gpu, cell и других. (часть 2), #4332 (http://forum.ixbt.com/topic.cgi?id=8:23098:4332#4332)

2486. xma, 16.01.2013 11:45
ssvb
Практически достижимые флопсы для двойной точности можете найти здесь (сделав поправку на частоту и количество ядер вашего процессора) : x86 против arm, power, sparc, gpu, cell и других. (часть 2), #4332

дак это на неоне или без ?

а с одинарной точностью - до 2 GFlops (на неоне)?

latency fwd - это сколько ждать перед следующей такой же инструкцией ?

2487. ssvb, 16.01.2013 11:53
xma
NEON не имеет инструкций для операций с двойной точностью у armv7 процессоров. Для одинарной точности, и задействовав NEON, действительно можно ожидать примерно вдвое больше флопсов.
Также какие-то бенчмарки для вычислений с плавающей точкой с использованием NEON есть здесь: http://www.vesperix.com/arm/fftw-arm/bench/index.html

Добавление от 16.01.2013 12:20:

xma
latency fwd - это сколько ждать перед следующей такой же инструкцией ?
Это количество тактов, по прошествии которых можно использовать результат, вычисленный данной инструкцией. Сколько ждать перед возможность запуска точно такой же (или другой) инструкции, но работающей с другими независимыми данными - это throughput. ARM даёт такие определения: http://infocenter.arm.com/help/topic/com.arm.doc.ddi…i/ch02s03s01.html

В зависимости от того, насколько оптимизирован код (и позволяет ли алгоритм его оптимизировать), реальное время выполнения в тактах, потраченное на инструкцию, будет в идеальном случае определять throughput. В худшем случае - latency. Это, разумеется, без учетов промахов кэшей. Для суперскалярных процессоров всё обычно ещё интереснее, но Cortex-A9 не умеет выполнять более одной VFP/NEON инструкции за такт.

2488. mealse, 16.01.2013 16:54
Народ, а у последнего/предпоследнего поколения ARMов в Exynos 2-4 ядра... S3/S4, T2/T3 - есть троттлинг или какие-то механизмы защиты от перегрева? Т.е. они тормозят при перегреве или до последнего работают - потом виснут/умирают.

2489. ssvb, 16.01.2013 19:51
mealse
Термодатчики есть во всех современных hi-end/смартфонных/планшетных/нетбучных ARM процесорах. Троттлингом управляет операционная система. При перегреве снижается тактовая частота.
За это сообщение сказали спасибо: mealse

2490. xma, 16.01.2013 21:07
ssvb, да ну . я думал сам проц или биос .

2491. deadlock, 16.01.2013 22:12
Facebook goes ARM with Calxeda like SemiAccurate reported years ago (http://semiaccurate.com/2013/01/16/facebook-goes-arm-with-calxeda-like-semiaccurate-reported-2-years-ago)


цитата:
the following morning I received a phone call from an irate Intel contact demanding the article be removed. The phrasing was unusually harsh and insistent, tones that this mild mannered person rarely uses.

2492. Mumie01, 16.01.2013 22:24
deadlock

Ссылка на Чарли? Этого клоуна...? Ничего авторитетнее не нашли?
Facebook аннонсировал Open Compute Project, а не АРМ сервера. Более того:
http://www.benzinga.com/news/13/01/3249016/intel-fac…-center-rack-tech

2493. deadlock, 16.01.2013 22:32
Mumie01
Open Compute Project
Созданный для стандартизации CPU модулей от разных производителей в одном флаконе.
Я уже приводил фоточку в другой теме
https://twitter.com/jonmasters/status/291603197372551169/photo/1
ARM и х86 можно будет сажать на одну плату.

2494. Mumie01, 16.01.2013 22:55
deadlock
ARM и х86 можно будет сажать на одну плату.

Может и можно - вопрос будет или нет ещё открыт. Чарли, мягко говоря, поторопился (что не удивительно для этого деятеля).

2495. deadlock, 16.01.2013 23:05
Mumie01
Чарли, мягко говоря, поторопился
Весь цимес в том, что фейсбук и другие категорически отрицали какой бы то ни было интерес к ARM.
Что собственно им не помешало работать в этом направлении

2496. ssvb, 16.01.2013 23:37
xma
да ну . я думал сам проц или биос
ну да . вот ссылка в исходниках ядра linux для chromebook drivers/thermal/exynos_thermal.c (http://git.chromium.org/gitweb/?p=chromiumos/third_party/kernel.git;a=blob;f=drivers/thermal/exynos_thermal.c;h=0fa576778ab478184bfd2a791e3166d2369ba04b;hb=refs/heads/chromeos-exynos-3.4)

2497. danpod76, 17.01.2013 12:12
http://www.overclockers.ru/hardnews/51658/Intel_rasskazyvaet_o_suschnosti_SDP.html

Intel рассказывает о сущности SDP

цитата:
Помимо собственно TDP, производителям мобильных компьютеров всегда предлагались две других характеристики, название которых происходит от сокращения "power level" (уровень мощности): PL2 и PL1. Первое значение определяет уровень энергопотребления при "максимальном авторазгоне", второе – уровень энергопотребления при устоявшейся нагрузке. Так вот, в случае с процессорами серии "Y" именно PL1 выступает в роли SDP, и оно равно 7 Вт, хотя значение TDP заявлено на уровне 13 Вт.
Подробнее: http://www.overclockers.ru/hardnews/51658/Intel_rass…schnosti_SDP.html

2498. ssvb, 17.01.2013 12:35
deadlock
Весь цимес в том, что фейсбук и другие категорически отрицали какой бы то ни было интерес к ARM.
Что собственно им не помешало работать в этом направлении


"Васька слушает, да ест". И правильно делает

2499. Marat Dukhan, 17.01.2013 13:21
Кажется, я нашёл причину, почему Arndale board в Ubuntu работает на 1.0 ГГц.
ШОК! Армофилам не смотреть!
Arndale board (Exynos 5250) не стабильна на 1.4 ГГц (https://bugs.launchpad.net/arndale/+bug/1081417)

Добавление от 17.01.2013 13:24:

ssvb
А как ODROID-U2 себя ведёт на компиляции при использовании только двух ядер?

Как-то так:

real 10m17.985s
user 18m51.590s
sys 0m45.600s

2501. deadlock, 17.01.2013 13:32
Marat Dukhan
Возможно дело в отсутствии радиатора =)
http://www.ifixit.com/Teardown/Samsung+Chromebook+11…+Teardown/12225/1

2502. AVK74, 17.01.2013 15:12
Да может и не в проце дело, разводка платы неудачная или питание например.

2503. TOTGEBOREN, 17.01.2013 16:05
Вот и получается, что на компиляции A15 быстрее A9 на 20-25%.

2504. barmaglot00, 17.01.2013 16:40
АРМосрач начался!
http://www.unwiredview.com/2013/01/16/qualcomm-ceo-a…-publicity-stunt/
Квалком ругает Окта. Говорит, мол, галимое гамно: there’s a big problem hiding behind all the PR, according to Jacobs. In the case of the Exynos 5 Octa, he claims that the power consumption of the four high-performance cores was just too high

2505. deadlock, 17.01.2013 19:53
barmaglot00
Им обидно что у кого-то больше ядер

That’s because ARM’s big.LITTLE architecture that Samsung is using in its Exynos 5 Octa CPU doesn’t allow all eight cores to be used at once.
А так ли это? Какой смысл Самсу урезать возможности?

2507. tolyanIzNska, 18.01.2013 11:20
цитата:

Смартфоны в этом году будут всё чаще использовать процессоры Intel, но существенного влияния на выручку это направление не окажет. В начале следующего года, ближе к концу февраля, Intel предложит производителям мобильных телефонов первые LTE-решения. Продукты с более высоким уровнем интеграции для телефонов тоже обещаны в следующем году.

Подождём ещё годик

2508. barmaglot00, 18.01.2013 12:08
deadlock
А так ли это? Какой смысл Самсу урезать возможности?
А как иначе ? Либо А15 работает, либо А7, согласно тому же АРМу. Так что Квалком прав - в любой момент времени проц по факту будет 4-ядерным. Все 8 ядер одновременно работать не будут. В реальной жизни, 99.9% времени это будут 4 ядра А7. И только при запуске игр, возможно, будут включаться А15

2509. ssvb, 18.01.2013 12:15
barmaglot00
Либо А15 работает, либо А7, согласно тому же АРМу.
Данное утверждение не соответствует действительности. Перечитаете более старые сообщения в данной теме, там было достаточно ссылок на информацию про big.LITTLE непосредственно от ARM, а не от "жёлтой прессы".

2510. barmaglot00, 18.01.2013 12:54
ssvb
Данное утверждение не соответствует действительности
http://www.arm.com/files/downloads/big_LITTLE_Final_Final.pdf
Страница 7. big.LITTLE MP Model. У вас есть документация на Exynos Octa, подтверждающая, что там MP Model реализована ?

2511. Mumie01, 18.01.2013 13:09
tolyanIzNska
В начале следующего года, ближе к концу февраля, Intel предложит производителям мобильных телефонов первые LTE-решения.

...сказал Оттелини отвечая на вопрос о том, когда Интел выпустит SOC с интегрированным LTE. В Clover Trail+ это и не ожидалось. Да и вообще, много вы знаете SOC с интегрированным LTE, включая свежеаннонсированные продукты (за исклюцением Snapdragon, естественно)?

2513. ssvb, 18.01.2013 15:42
цитата:
barmaglot00:
ssvb
Данное утверждение не соответствует действительности
http://www.arm.com/files/downloads/big_LITTLE_Final_Final.pdf
Страница 7. big.LITTLE MP Model. У вас есть документация на Exynos Octa, подтверждающая, что там MP Model реализована ?
Документации у меня нет. Есть только интервью Simon Segars, the president of ARM Inc., в котором он явно утверждает, что в Samsung's Exynos 5 Octa все восемь ядер могут работать одновременно. Смотрите видео http://www.engadget.com/2013/01/09/arm-interview/ (если точнее, то об этом говорится примерно на 1:30 минуте в видео).

2514. Boris Usievich, 18.01.2013 15:45
ssvb
И сколько он будет потреблять если все 8 ядер загрузить?

2516. barmaglot00, 18.01.2013 17:04
deadlock

В одинаковых браузерах, например в Safari
Прогнал тесты на айпадике, в Сафари и Хроме, только вот до таких показателей почему-то не дотянулся... V8 - 443 в Сафари, и 113 в Хроме. Прогоните на своих АРМах, сравните...

2517. deadlock, 18.01.2013 21:40
barmaglot00
Прогоните на своих АРМах, сравните...
Не вопрос

Safari, iPhone5, 1.3GHz
Sunspider 0.9.1 - 956 (lower is better)
v8(v7) - 1455 (higher is better)
Octane v1 - 1614 (higher is better)

Safari, Atom Z2760 1.8GHz (из вышеупомянутой статьи)
Suspider 0.9.1 - 959
V8(v7) - 813
Octane v1 - 756



Chrome нет смысла сравнивать, т.к. он не имеет JIT на iOS

2518. barmaglot00, 18.01.2013 22:16
deadlock
Safari, iPhone5, 1.3GHz
Эти результаты лишь свидетельствуют о качестве реализации А6 и сафари в IOS.

2519. ollivgvod, 18.01.2013 23:23
barmaglot00
Эти результаты лишь свидетельствуют о качестве реализации А6 и сафари в IOS.
Нет, о "качестве" сафари для windows.
Которое, кстати, больше не выпускается.
За это сообщение сказали спасибо: -=GunFighter=-

2520. xma, 18.01.2013 23:34
ну что когда там появятся opencl arm решения , скока gflops ожидается ?

2521. deadlock, 18.01.2013 23:55

2522. ssvb, 19.01.2013 14:31
Boris Usievich
И сколько он будет потреблять если все 8 ядер загрузить?
Мы сами (или по крайней мере ананды) всё увидим, когда эти устройства доберутся до конечных пользователей.

Но думаю, что соотношение производительность/энергопотребление при загрузке 8 ядер (4 A15 + 4 A7) будет явно повыше, чем при загрузке одних только четырёх A15. Возьмём за основу данные из http://www.arm.com/files/downloads/big_LITTLE_Final_Final.pdf и предположим, что IPC для A7 будет примерно вдвое хуже при энергоэффективности втрое выше по сравнению с A15. При такой оценке получится, что 4 ядра A7 на частоте 1.2 GHz в дополнение к 4 ядрам A15 на частоте 1.8 GHz увеличат общую производительность при хорошо параллелящейся многопоточной нагрузке примерно на треть. При этом энергопотребление возрастёт примерно на 10%. Если это будет именно так, то получается интересный ответ на HT

2523. Boris Usievich, 19.01.2013 14:41
ssvb
Но думаю, что соотношение производительность/энергопотребление при загрузке 8 ядер (4 A15 + 4 A7) будет явно повыше, чем при загрузке одних только четырёх A15.
А я думаю, что оно тупо уйдет в троттлинг

2524. PapaBear, 20.01.2013 20:12
про бенчмарки в OpenCL -Calxeda с PowerVR/Mali и Tilera с кастомным DSP смотрятся не так уж и плохо.
many-core Godsoon опять-же.

2525. barmaglot00, 21.01.2013 10:05
Boris Usievich

А я думаю, что оно тупо уйдет в троттлинг
Пара выдержек из Microprocessor report по Tegra 4:
But on the basis of Exynos 5250 testing, an A15 CPU can draw more than 1.5W when active, so a quad-core device could peak at 6W or more. This power level is certainly unsustainable in smartphones and is on the high end of tablet TDPs
и про графику
The larger GPU brings greater power consumption.
Even with the shrink to 28nm HKMG, the Tegra 4 GPU has nearly six times as many transistors as in Tegra 3, increasing power consumption during high-performance gaming into the multiwatt range. At this power level, Tegra 4 may be unsuitable for smartphones unless it throttles the GPUs.

Таким образом TDP у Tegra4 при максимальных частотах перевалит за 10W
За это сообщение сказали спасибо: matik

2526. ssvb, 21.01.2013 11:16
barmaglot00
Не забывайте, что:
1) Exynos 5250 - это самый первый блин с A15, который очень часто бывает комом. Очень редко первый чип на новой микроархитектуре сразу ставит рекорды по максимальной тактовой частоте и/или энергопотреблению. Наверняка будет некий тюнинг и оптимизации в следующих ревизиях. Сколько ревизий одной и той же старой микроархитектуры потребовалось Intel'у для того, чтобы оптимизировать энергопотребление у Atom? Интересно, атомы на новой микроархитектуре (http://www.ixbt.com/news/hard/index.shtml?16/46/89) сразу будут малопотребляющими или потребуют годы доводки?
2) Также смотрите сообщение от deadlock (http://forum.ixbt.com/topic.cgi?id=8:24102:10#10) про управление питанием на Exynos и мой ответ на него. В моём Chromebook используются максимальные напряжения для Exynos 5250, как для чипа из "худшей" ASV категории. Тем не менее, это не мешает ему работать без активного охлаждения и без троттлинга при максимальной нагрузке на оба ядра и тактовой частоте 1.7GHz. Думаю, что для смартфонов вполне логично ожидать применения чипов из более другой ASV категории и работающих на явно более низких напряжениях.

Добавление от 21.01.2013 11:19:

"Voltage depends on ASV/adaptive scaling voltage group that gets assigned to the CPU on characteristics/criteria which are fused onto the chip during manufacturing which determine the quality of the chip. A higher ASV means a higher quality chip."

2527. barmaglot00, 21.01.2013 11:59
ssvb

Очень редко первый чип на новой микроархитектуре сразу ставит рекорды по максимальной тактовой частоте и/или энергопотреблению. Наверняка будет некий тюнинг и оптимизации в следующих ревизиях
Это положение хорошо применимо к Квалкому и Эппл - они делают СВОИ продукты и могут их оптимизировать до ... победного конца. Самсунг и НВидиа берут готовые, сделанные АРМом ядра. Если у этого ядра на 32нм у Самсунга получилось 1.5W на ядро - что изменится от того, что эти же самые ядра, без каких либо изменений, попадут в Тегру 4 и Окта ? Только от нового техпроцесса эффект... Разве АРМ обещал новые ревизии А15 ?

2528. ssvb, 21.01.2013 12:17
barmaglot00
Самсунг и НВидиа берут готовые, сделанные АРМом ядра. Если у этого ядра на 32нм у Самсунга получилось 1.5W на ядро - что изменится от того, что эти же самые ядра, без каких либо изменений, попадут в Тегру 4 и Окта ?
Я тут совсем не специалист, но всё же слышал что-то про "soft macro" vs. "hard macro" и думал, что от Самсунга тоже в немалой степени зависит конечный результат. Может ли кто-небудь из местных "железячников" провести "ликбез" на эту тему? Было бы очень интересно.

Разве АРМ обещал новые ревизии А15 ?
Вы не поверите, ревизии процессорных ядер постоянно обновляются. Хотя бы для того, чтобы исправлять errata. В Chromebook используется Cortex-A15 ревизии r0p4. Судя по информации с сайта ARM (http://infocenter.arm.com/help/topic/com.arm.doc.subset.cortexa.cortexa15/index.html) , последняя ревизия Cortex-A15 сейчас r3p2.

2529. deadlock, 21.01.2013 12:30
barmaglot00
Самсунг и НВидиа берут готовые, сделанные АРМом ядра.
Какие конкретно?
Это положение хорошо применимо к Квалкому и Эппл - они делают СВОИ продукты и могут их оптимизировать до ... победного конца.
Это касается всех без исключений. Процессор синтезируется, и насколько он качественно оптимизирован под конкретный ТП решающим образом сказывается на характеристиках. Например на той же tegra ядра синтезируются по-разному. Одно рассчитано на низкое потребление, другие под производительность. К тому же на одном ТП, процессоры получаются, знаете ли, разные. Какие-то будут тянуть большие частоты, какие-то будут более экономичными.

Разве АРМ обещал новые ревизии А15
Я что-то пропустил? ARM разорился и больше ревизий не будет?

Добавление от 21.01.2013 12:56:

ssvb
Насколько я понимаю, soft-macro это RTL (register transfer level), который описывает связи между (логическими) элементами.
Не привязан к какому либо ТП или частоте. Годен для конфигурации / редактирования.
Hard-macro это уже продукт синтеза RTL под конкретный ТП и таргет (power/perf/area), который описывает топологию (годную для создания масок)

2530. barmaglot00, 21.01.2013 12:58
deadlock

Какие конкретно?
А15, очевидно ? Есть другая информация ?

ssvb
ы не поверите, ревизии процессорных ядер постоянно обновляются. Хотя бы для того, чтобы исправлять errata
И что? Исправления ошибок = снижению TDP ?

2531. deadlock, 21.01.2013 13:09
barmaglot00
А15, очевидно ? Есть другая информация ?
Перечитайте последние посты. Какой конкретно IP?
На TDP сильно влияет низкоуровневая реализация.
Тот же Intel, например, использует 8-транзисторные ячейки памяти вместо 6-транзисторных для лучшей энергоэффективности.
На уровне RTL у того же Самсунга, по-идее, есть все возможности.

2532. barmaglot00, 21.01.2013 13:25
deadlock

На TDP сильно влияет низкоуровневая реализация.
Воистину. А где написано, что - а) низкоуровневая реализация ядра А15 у Тегры4 и Окта отличается друг от друга и от того, что им выдал АРМ б) есть новые ревизии низкоуровневой реализации, значительно снизившие TDP ядра А15 ?

2533. deadlock, 21.01.2013 13:43
barmaglot00
А где написано, что низкоуровневая реализация ядра А15 - а) у Тегры4 и Окта отличается друг от друга и от того, что им выдал АРМ
Нигде. Я думал вы свечку держали и знаете ответ на вопрос. Но вы его почему-то игнорируете.
Тогда я отвечу за вас.

Exynos5250 (а ведь мы говорили о нём) скорее всего создан на базе простого синтеза RTL из чего_бог_послал, по той причине, что POP/hard-macro A15 под 32нм у ARM попросту нет.
Зато у ARM есть POP и hard-macro Quad Core A15@2GHz под техпроцесс TSMC 28nm.
Такой же ТП, по случайному совпадению использует и nVidia.
Тактовые частоты тегры, по мнению интернетов, лежат в районе 1.9-2GHz, что позволяет думать об использовании оптимизированной реализации.
Право ведь, если есть возможность приобрести POP / hard-macro под нужный техпроцесс, почему бы этого не сделать?

В общем, телефоны на Dual/QuadCore A15 - не за горами.

2534. Boris Usievich, 21.01.2013 13:51
deadlock
В общем, телефоны на Dual/QuadCore A15 - не за горами.
задам традиционный вопрос: Нафига?

2535. barmaglot00, 21.01.2013 13:53
deadlock

Тогда я отвечу за вас
Спасибо за развернутый комментарий, но это не ответ на вопрос, а набор предположений, без документированных подтверждений. Таким образом, утверждать, что Microprocessor Report неправ в своей оценке TDP Tegra 4 - нельзя.

2536. ssvb, 21.01.2013 13:56
barmaglot00
Воистину. А где написано, что низкоуровневая реализация ядра А15 - а) у Тегры4 и Окта отличается друг от друга и от того, что им выдал АРМ б) есть новые ревизии низкоуровневой реализации, значительно снизившие TDP ядра А15 ?
OK, давайте посмотрим на примерную аналогию из мира софта, как я её представляю. Предположим, что наша задача требует компрессию данных, передачу их и распаковку на другой машине. Мы можем решить её двумя путями:
1) Чего уж там мелочиться, можно написать собственную реализацию ахиватора
2) Взять высокоуровневую реализацию некоего готового архиватора, например C/C++ исходники от 7-zip (что есть в некотором роде аналог soft-macro RTL). Мы можем синтезировать эти исходники в машинный код используя различные компиляторы, либо даже используя различные опции оптимизации одного и того же компилятора. Ещё на уровне исходников для софта иногда есть возможность конфигурации алгоритма под конкретную задачу (скорость против потребления памяти, бинарные деревья против хэшей и т.д.) и выбрасывания того, что нам непосредственно не нужно с целью получения меньшего размера финального кода (для RTL процессора это размеры кэшей и наличие/отсутствие поддержки ряда фич вроде NEON). Более того, не смотря на то, что мы не хотим лезть в сам алгоритм (поскольку мы его толком не понимаем и есть большой риск что-то поломать), всё же имеются отдельные изолированные части, вроде вычисления CRC32, которые можно пытаться дополнительно оптимизировать.

При втором варианте получается, что два разных человека, взяв одни и те же исходники 7-zip, могут получить существенно разные результаты в плане размера бинарников, поддерживаемых опциональных фич и быстродействия. Тем не менее на выходе в любом случае получается 7-zip.

Если сравнить эти два подхода в применении к процессорам, то (1) - это Qualcomm и Apple, а (2) - это Samsung, NVIDIA, TI и куча других контор. Первый подход даёт максимальную свободу. Но и при втором подходе имеется возможность что-либо улучшить или серьёзно накосячить по сравнению с остальными

Добавление от 21.01.2013 14:05:

barmaglot00
Спасибо за развернутый комментарий, но это не ответ на вопрос, а набор предположений, без документированных подтверждений. Таким образом, утверждать, что Microprocessor Report неправ в своей оценке TDP Tegra 4 - нельзя.
Однако также нет никаких оснований считать, что этот Microprocessor Report прав. У Samsung и NVIDIA есть все шансы выставить их дураками Будем ждать реальных устройств.

Добавление от 21.01.2013 14:12:

Boris Usievich
задам традиционный вопрос: Нафига?
Знаете ли, не всем достаточно возможностей Nokia 3310 Думаю, что производители проигнорируют Ваше мнение. И через N лет, теперешние смартфонные чертырёхъядерники будут считаться допотопными устаревшими тормозными процессорами, которые даже не могут в реальном времени качественно распознавать речь, изображения или справляться с другими типичными повседневными задачами, ожидаемыми от любого телефона

2537. deadlock, 21.01.2013 15:28
barmaglot00
это не ответ на вопрос, а набор предположений
Несомненно, это всё домыслы, но что ещё остаётся?

Boris Usievich
задам традиционный вопрос: Нафига?
Мне показалось, или комп у вас уже не IBM PC XT?
640кб хватит всем!

2538. Boris Usievich, 21.01.2013 15:59
ssvb
Знаете ли, не всем достаточно возможностей Nokia 3310
смотрю на свой планшет - и продолжаю не понимать

deadlock
Мне показалось, или комп у вас уже не IBM PC XT?
для компа-то задачи есть, а вот для телефона все еще непонятно НАФИГА

2539. barmaglot00, 21.01.2013 16:20
Boris Usievich
а вот для телефона все еще непонятно НАФИГА
А вот ровно поэтому и выпускают изделия с экраном 5" и более. Мутация в плафоны/смартшеты. Там хоть GTA можно запускать или еще какую хрень. А с экраном < 4" восемь ядер - явный бред.

2540. ssvb, 21.01.2013 17:38
barmaglot00
А с экраном < 4" восемь ядер - явный бред.
При чём здесь экран? Вот, предположим, я люблю играть в шахматы или какую-либо другую "пошаговую" игру и мне не нравится, когда компьютер/телефон слишком долго "думает" над своим ходом. Это именно вопрос скорости процессора, и ничего другого.

2542. deadlock, 21.01.2013 23:38
Boris Usievich
для компа-то задачи есть, а вот для телефона все еще непонятно НАФИГА
Вам не надо - дык сидите и дальше у писюка, как у догорающей лучины
А остальные будут 4к видео в реалтайме редактировать на каком нибудь Galaxy Note 4

2543. nenin, 21.01.2013 23:42
цитата:
deadlock:
А остальные будут 4к видео в реалтайме редактировать на каком нибудь Galaxy Note 4
Да ради Бога. "Чем бы не тешились, лишь бы не курили" (с) Сейчас флибусту закакивают своими крео, а так на ётубу переберутся- и то счастье.

2544. PapaBear, 22.01.2013 03:41
4k и 8k дисплеи - только на AMD и дискретке.
интеловские APU - только с рефрешем 25Гц держат и то - "в теории", а Тегра и Ко - лишь "попозже", в принципе )

2545. Mumie01, 22.01.2013 04:47

2546. deadlock, 22.01.2013 05:04
Бугага. Интел планирует выдавать университетам синтезируемое x86 ядро, точнее огрызок от х86.
http://isca2012.ittc.ku.edu/media/Rattner%20ISCA%20K…20612%20FINAL.pdf
Называется Siskiyou Peak
Да... совсем ARM-а испугались.
За это сообщение сказали спасибо [2]: ssvb, Mumie01

2547. Mumie01, 22.01.2013 05:25
deadlock
Да... совсем ARM-а испугались.

Причём здесь ARM?
Но за линк - спасибо. Этого я раньше не видел.

2548. ABR, 22.01.2013 08:54
получается что сенди на частоте 800мгц быстрее а15 на частоте 1700мгц, если я правильно понял из статьи

2549. YgriK, 22.01.2013 09:00
ABR
ага, только фигня есть одна, маханька, с потреблением

2550. barmaglot00, 22.01.2013 10:35
deadlock
Да... совсем ARM-а испугались.
Интел планирует выдавать университетам синтезируемое x86 ядро, точнее огрызок от х86
Тормозите. Новость июня прошлого года...
АРМ выдает хоть что-то забесплатно ?

Добавление от 22.01.2013 10:57:

YgriK
ага, только фигня есть одна, маханька, с потреблением
Ниче, что батарейка слегка отличается ? Как раз в два раза

2551. YgriK, 22.01.2013 11:08
barmaglot00
значит всё ещё хуже раз не было возможности поставить нормальную батарейку

2552. barmaglot00, 22.01.2013 11:31
YgriK
значит всё ещё хуже раз не было возможности поставить нормальную батарейку
Что хуже то ? Ценник на 50 долл лучше, диск 320ГБ стоит вместо 16ГБ флешки. Батарейка вот нетбучная осталась... ай-яй-яй...
Напишите еще, что Санди Бридж сливает Кортексу А15 и что там обычно... пыль глотает, что еще ? обычно гомоэротические фантазии добавляют.

2553. YgriK, 22.01.2013 11:37
barmaglot00
чтож ВАС-то так прёт от ЧУЖИХ фантазий?

2554. barmaglot00, 22.01.2013 12:06
YgriK
чтож ВАС-то так прёт от ЧУЖИХ фантазий?
Да засирается конфа от фантазий, читать невозможно. Каждая страница - x86 сливает, пыль глотает, сосет итд

Вот вы пишете - проблема с потреблением. Где там проблема с потреблением у х86 ? Там стоит HDD вместо флеша, и батарея 2500 maH против 4080 maH у самсунга. Самсунг, при батарее на 63% более емкой, при флеше вместо HDD, работает на 52% дольше.

Так у кого проблемы с потреблением-то ? У Эксиноса, однако!

2555. -=GunFighter=-, 22.01.2013 12:12
barmaglot00
и батарея 2500 maH против 4080 maH у самсунга.
Если напряжение батарей одинаковое, то проблемы потребления действительно:
У Эксиноса, однако!

2556. YgriK, 22.01.2013 12:13
barmaglot00
Где там проблема с потреблением у х86 ?
еслиб всё было так просто, то всемилюбимая интел не парилабы никому мозги с атомом и сразу бы родила CULV-процы с потреблением в неск.ватт

2557. ssvb, 22.01.2013 12:19
ABR
получается что сенди на частоте 800мгц быстрее а15 на частоте 1700мгц, если я правильно понял из статьи
Интересно, откуда Ананд взял эти 800MHz? Acer и Intel почему-то считают, что там 1.1GHz:
http://us.acer.com/ac/en/US/content/model-datasheet/NU.SH7AA.004
http://ark.intel.com/products/56056/Intel-Celeron-Pr…2M-Cache-1_10-GHz
Ну и 2MB кэша последнего уровня против 1MB у Exynos5250 тоже явно влияют на результат.

Добавление от 22.01.2013 12:28:

Но самая большая проблема у Chromebook Acer C7 - это наличие вентилятора И как бы тут ни пытались сравнивать ёмкости батарей, результат всё равно налицо.

2558. barmaglot00, 22.01.2013 12:33
-=GunFighter=-

Если напряжение батарей одинаковое, то проблемы потребления действительно:
Да, стоило проверить. У Acer 14-вольтовая батарея, 35Wh получается против 30Wh у Самсунг.

2559. YgriK, 22.01.2013 12:37
ssvb
это наличие вентилятора И как бы тут ни пытались сравнивать ёмкости батарей, результат всё равно налицо.
да-да, меня сегодня ночью мои выгнали на кухню изза карлсона на древнем буке

2560. Boris Usievich, 22.01.2013 13:39
YgriK
да-да, меня сегодня ночью мои выгнали на кухню изза карлсона на древнем буке
А как же всепобеждающие АРМы без вентиляторов? Неужели они не могут выполнить нужную работу?

2561. YgriK, 22.01.2013 13:43
Boris Usievich
а зачем покупать новый девайс если старый меня устраивает? Вот когда навернётся, вот тогда и подумаю чё брать для новостей-флейма и кино

2562. deadlock, 22.01.2013 14:28
barmaglot00
Тормозите. Новость июня прошлого года...
Это что-то меняет? Не нравится - не читайте

АРМ выдает хоть что-то забесплатно ?
http://www.arm.com/support/university/ip/index.php

2563. ABR, 22.01.2013 14:59

2564. Korzh, 22.01.2013 15:13
YgriK
цитата:
всемилюбимая интел не парилабы никому мозги с атомом и сразу бы родила CULV-процы с потреблением в неск.ватт
ULV Pentium M с TDP 5 Вт появились ЕМНИП почти на четыре года раньше, чем первые Atom с TDP 2,5 Вт и на более жирном техпроцессе

2565. YgriK, 22.01.2013 15:21
Korzh
ну и на какой витрине я могу пощупать энергоэффективную мобильную х86-технику?

2566. Korzh, 22.01.2013 15:34
YgriK
Какую из? Планшеты -- в любом приличном магазине. Мобильники -- в зависимости от места обитания.

2567. YgriK, 22.01.2013 15:36
Korzh
а, понятно, опять ждать будущего

2568. Mumie01, 22.01.2013 16:00
YgriK
ага, только фигня есть одна, маханька, с потреблением


Разница, конечно, есть, но не такая большая, как можно было бы ожидать, учитывая что acer c7 имеет далеко не телефонную начинку на борту (HDD, чипсет, не низковольтную DDR3, активную систему охлаждения). Samsung с его 6-ю часами тоже не чемпион в длительности работы от батареи. Впрочем, как только архитектура Core передет на SoC (см. Haswell) эти недостатки исчезнут (см. Atom Z2760 vs. Atom D525/N2800).

2569. YgriK, 22.01.2013 16:05
Mumie01
интелу понадобилось неск. лет и пару отставок высших лиц, чтобы дойти до прописной истины - атомный SoC должен был быть рожден неск. лет назад. Далее идём в магазин и ищём x86- планшеты и буки за народные 200-300-500баксов

2570. Mumie01, 22.01.2013 16:18
YgriK
интелу понадобилось неск. лет и пару отставок высших лиц, чтобы дойти до прописной истины - атомный SoC должен был быть рожден неск. лет назад.

Знаете пословицу про "долго запрягает..."?

2571. YgriK, 22.01.2013 16:24
Mumie01
если я не хочу ждать кучера, я его не жду

2572. nenin, 22.01.2013 17:35
цитата:
YgriK:
Mumie01
интелу понадобилось неск. лет и пару отставок высших лиц, чтобы дойти до прописной истины - атомный SoC должен был быть рожден неск. лет назад.
появление майнстримной OS. До этого "атомный SoC" был Интелу не сильно актуален.

2573. fineman, 22.01.2013 18:55
nenin
Главное, чтоб ОС теперь стала актуальной

2574. -=GunFighter=-, 22.01.2013 19:04
YgriK
интелу понадобилось неск. лет и пару отставок высших лиц
Пошел АРМ в лес, Интел на битву звать. Видит огромную пещеру - там Интел, уверен АРМ. Начал орать в нее: "Выходи, Интел, драться будем!!!". Крикнул раз, крикнул второй, а на третий слышит голос сверху: "Ну драться, так драться, но зачем же в попу кричать?!"
За это сообщение сказали спасибо [2]: nenin, Rus_Wolf

2575. nenin, 22.01.2013 19:42
цитата:
fineman:
nenin
Главное, чтоб ОС теперь стала актуальной
Адройд вполне себе актуальный- теперь в него вполне можно вкладываться.

2576. fineman, 22.01.2013 21:30
nenin
Андроид пару лет как актуален Я думал Вы о той самой, с кучей всем нужного легаси хлама

2577. nenin, 22.01.2013 22:07
цитата:
fineman:
nenin
Андроид пару лет как актуален
Сейчас он стал актуальным, так сказать, окончательно. Пару лет назад там еще были вопросики.
цитата:

Я думал Вы о той самой, с кучей всем нужного легаси хлама
И о ней тоже. ИМХО, 8-ка х86 свое возьмет на планшетах, а 8 под ARM скорее всего, останется в умеренных маргиналах.

2579. Romaker, 23.01.2013 13:24
lex73
что это за флопсы такие? Откуда?

2581. deadlock, 23.01.2013 13:49
lex73
Надо полагать что результаты других процессоров получены тем же самым телефонным линпаком?

2582. Romaker, 23.01.2013 13:51
цитата:
lex73:
Romaker
http://ru.wikipedia.org/wiki/FLOPS
линпак, понятно.
можете еще дописать калькулятор - 10 флопс , для сами знаете кого

Добавление от 23.01.2013 14:00:

deadlock
кстати, о тестах. Тут мелькали новости о SPEC результатах на АРМ, есть ссылка чтобы посмотреть?

2583. T-5000, 23.01.2013 16:06
Romaker
что это за флопсы такие? Откуда?

Вестимо откуда, жабий линпак с софтовой эмуляцией.
На этом тесте Атом Z2460 набрал 86 MFLOPS

2584. Marat Dukhan, 23.01.2013 16:43
lex73
Intel Core i5-2500K 3.3-3.7 ГГц (2011) — 105,6-118 Гфлопс
Intel Atom — 2,1 Гфлопс
iPhone 5 на базе процессора Apple A6 — 645 Мфлопс


Неправдоподобно. Вот пиковые значения FLOPs для разных микроархитектур:

В double-precision [FLOPs/(cycle*core)]
  • Atom: 1.5 (за каждые два такта: 2 ADD + 1 MUL)
  • Cortex-A9: 1.5 (за каждые два такта: 1 ADD + 1 MAC)
  • Cortex-A15: 2 (1 ADD + 1 MUL ? либо 1 MAC либо 1 FMA)
  • Krait: 2 (1 MAC либо 1 FMA)
  • Barcelona, Nehalem: 4 (1 2xSIMD ADD + 1 2xSIMD MUL)
  • Bulldozer: 8 (2 2xSIMD FMA)
  • Sandy Bridge: 8 (1 4xSIMD ADD + 1 4xSIMD MUL)
  • Haswell: 16 (2 4xSIMD FMA)

В single-precision [FLOPs/(cycle*core)]
  • Atom: 8 (1 4xSIMD ADD + 1 4xSIMD MUL)
  • Cortex-A9: 4 (1 2xSIMD MAC)
  • Cortex-A15: 8 (1 4xSIMD MAC либо 1 4xSIMD FMA)
  • Krait: 8 (1 4xSIMD MAC либо 1 4xSIMD FMA)
  • Barcelona, Nehalem: 8 (1 4xSIMD ADD + 1 4xSIMD MUL)
  • Bulldozer: 16 (2 4xSIMD FMA)
  • Sandy Bridge: 16 (1 8xSIMD ADD + 1 8xSIMD MUL)
  • Haswell: 32 (2 8xSIMD FMA)

2585. Boris Usievich, 23.01.2013 16:49
Marat Dukhan
Bulldozer: 8 (2 2xSIMD FMA)
на 2 ядра

2587. Romaker, 23.01.2013 18:11
lex73
да насчитал он нормально, например i5 2500K 3.3 GHz:
106*10^9/(3.3*10^9*4) = ~8 так что все нормально.

2588. Marat Dukhan, 23.01.2013 18:28
Boris Usievich
Да, для Bulldozer в расчёте на модуль.

lex73
Вы будете более убедительны если приведёте аргументы.

2590. ssvb, 23.01.2013 18:57
цитата:
Marat Dukhan:
В double-precision [FLOPs/(cycle*core)][list]
  • Cortex-A9: 1.5 (за каждые два такта: 1 ADD + 1 MAC)
  • Что-то у меня так совсем не получается на Cortex-A9. На следующем коде (ADD двойной точности) получается без каких-либо сюрпризов 12 тактов при повторении в развёрнутом цикле:
    код:

    vadd.f64 d0, d0, d0
    vadd.f64 d1, d1, d1
    vadd.f64 d2, d2, d2
    vadd.f64 d3, d3, d3
    vadd.f64 d4, d4, d4
    vadd.f64 d5, d5, d5
    vadd.f64 d6, d6, d6
    vadd.f64 d7, d7, d7
    vadd.f64 d8, d8, d8
    vadd.f64 d9, d9, d9
    vadd.f64 d10, d10, d10
    vadd.f64 d11, d11, d11

    Добавляем одну независимую инструкцию VMLA.F64:
    код:

    vadd.f64 d0, d0, d0
    vadd.f64 d1, d1, d1
    vadd.f64 d2, d2, d2
    vadd.f64 d3, d3, d3
    vadd.f64 d4, d4, d4
    vadd.f64 d5, d5, d5
    vadd.f64 d6, d6, d6
    vadd.f64 d7, d7, d7
    vadd.f64 d8, d8, d8
    vadd.f64 d9, d9, d9
    vadd.f64 d10, d10, d10
    vadd.f64 d11, d11, d11
    vmla.f64 d31, d30, d30

    Время выполнения увеличивается до 14 тактов. Т.е. VADD.F64 требует 1 такт для issue, VMLA.F64 требует 2 такта. И никакого одновременного запуска для VFP инструкций тоже не видно. Пиковая производительность получается всего 1 операция двойной точности за такт. Противоречий с http://infocenter.arm.com/help/topic/com.arm.doc.ddi…i/ch02s03s02.html и http://infocenter.arm.com/help/topic/com.arm.doc.ddi…09i/BCGDCIBA.html не нашел (кроме латентностей, которые там судя по всему занижены на 1 такт, но это больше вопрос определения латентности и того, с какого момента они её начинают считать, т.е. такты на issue туда включены, либо нет).

    Все регистры перед запуском цикла занулены, т.е. никаких denormals и прочих неприятностей не должно быть.

    2591. Romaker, 23.01.2013 19:07
    lex73 нарушаете правила конференции, раздел хамство. Забанят. Давайте быть более толерантными

    2592. ssvb, 23.01.2013 19:59
    цитата:
    ssvb:
    цитата:
    Marat Dukhan:
    В double-precision [FLOPs/(cycle*core)][list]
  • Cortex-A9: 1.5 (за каждые два такта: 1 ADD + 1 MAC)
  • Что-то у меня так совсем не получается на Cortex-A9.
    Хмм, всё на самом деле намного интереснее. Если огранизовать код как пары "VADD.F64 D0, D0, D0 + VMLA.F64 D1, D1, D1", "VADD.F64 D1, D1, D1 + VMLA.F64 D2, D2, D2" ну и так далее, используя разные регистры в каждой инструкции, то получается:
    код:

    количество пар | количество тактов
    1 | 9.00
    2 | 9.00
    3 | 9.00
    4 | 9.33
    5 | 11.66
    6 | 14.00
    7 | 16.33
    8 | 25.00
    9 | 27.00
    10 | 30.00
    11 | 32.00
    12 | 34.00

    Т.е. начинаем мы с 9 тактов (латентность VMLA.F64). Далее при количестве пар VADD/VMLA равном 4, получаем 9.33 такта для фрагмента кода, IPC = ~0.857, FLOP на такт = ~1.286:
    код:

    vadd.f64 d0, d0, d0
    vmla.f64 d1, d1, d1

    vadd.f64 d2, d2, d2
    vmla.f64 d3, d3, d3

    vadd.f64 d4, d4, d4
    vmla.f64 d5, d5, d5

    vadd.f64 d6, d6, d6
    vmla.f64 d7, d7, d7

    Потом всё это продолжается в том же духе до количества пар, равного 7. После этого идёт резкий скачок до 25 тактов при восьми парах (FLOP на такт падает до 0.96) и далее следует несколько непредсказуемое поведение.

    Т.е. таким образом получается достичь ~1.3 операции за такт Есть идеи, как добиться именно 1.5?

    2593. Marat Dukhan, 23.01.2013 20:55
    ssvb
    Да, действительно получается только 1.3 FLOPs, а я сначала списал это на погрешность измерения. Последовательность такая:

    код:
    		VMLA.F64 d12, d0, d0
    VADD.F64 d24, d24, d0

    VMLA.F64 d13, d1, d1
    VADD.F64 d25, d25, d1

    VMLA.F64 d14, d2, d2
    VADD.F64 d26, d26, d2

    VMLA.F64 d15, d3, d3
    VADD.F64 d27, d27, d3

    VMLA.F64 d16, d4, d4
    VADD.F64 d28, d28, d4

    VMLA.F64 d17, d5, d5
    VADD.F64 d29, d29, d5

    VMLA.F64 d18, d6, d6
    VADD.F64 d24, d24, d6

    VMLA.F64 d19, d7, d7
    VADD.F64 d25, d25, d7

    VMLA.F64 d20, d8, d8
    VADD.F64 d26, d26, d8

    VMLA.F64 d21, d9, d9
    VADD.F64 d27, d27, d9

    VMLA.F64 d22, d10, d10
    VADD.F64 d28, d28, d10

    VMLA.F64 d23, d11, d11
    VADD.F64 d29, d29, d11

    2594. ssvb, 23.01.2013 22:47
    Marat Dukhan
    Похоже, что одновременно с VMLA.F64 на Cortex-A9 может выполняться без проблем любая однотактовая VFP инструкция, за исключением VADD.F64 Наверное в VMLA.F64 один такт из двух задействован как раз для операции сложения (кто бы мог подумать?), поэтому оптимальное взаимное расположение VMLA.F64 и VADD.F64 может быть достаточно нетривиальным. Также может быть тут ещё как-то влияет forwarding и writeback результата. При замене VADD.F64 на VABS.F64 или VLDR.F64, без проблем можно получить IPC=1 (т.е. пара VMLA.F64 + VABS.F64 выполняется ровно два такта).

    2595. xameleon, 24.01.2013 00:08
    Извините, но не кажется ли участникам дискуссии, что встраивать команды арифметики с плавающей запятой в основной исполняемый код - не единественное и, возможно, не самое лучшее решение?

    2596. Boris Usievich, 24.01.2013 00:12
    xameleon
    Извините, но не кажется ли участникам дискуссии, что встраивать арифметику с плавающей запятой в основной программный код - не единественное и, возможно, не самое лучшее решение?
    переведите на русский язык

    2597. xameleon, 24.01.2013 00:16
    цитата:
    Boris Usievich:
    переведите на русский язык :)
    Да, виноват. Немного исправил. Имелось в виду что сейчас в исполняемом коде перемешаны команды процессора и сопроцессора. А можно сделать так, что процессор посылает команды устройству сопроцессор. Проще говоря - процессор говорит сопроцессору - "вот тебе формула - посчитай мне её".

    2598. Boris Usievich, 24.01.2013 00:20
    xameleon
    А можно сделать так, что процессор посылает команды устройству сопроцессор. Проще говоря - процессор говорит сопроцессору - "вот тебе формула - посчитай мне её".
    изучайте матчасть - так было с 8087

    2599. xameleon, 24.01.2013 01:12
    цитата:
    Boris Usievich:
    изучайте матчасть - так было с 8087 :rotate:

    Таки я не отказываюсь от своиз слов, просто мне необходимо некоторое время, чтобы доступно выразить идею. Каюсь, поспешил с постом.

    2600. T-5000, 24.01.2013 08:20
    Marat Dukhan
    Cortex-A15: 2 (1 ADD + 1 MUL ? либо 1 MAC либо 1 FMA)

    Получается что 4-ядерная Тегра4 в пике имеет 16 Гфлопс на даблах. Очень неплохо.

    2601. Tourlenta, 24.01.2013 09:27
    xameleon, сама Интел рекомендует отказываться от использования сопроцессора в пользу инструкций SSE.
    Что сопроцессору, что SSE - формулу на низком уровне дать не получится, только "примитивные" инструкции наподобие + - синус косинус над регистрами, причём у сопроцессора - только над одним, верхним на стеке, а в sse можно использовать сразу несколько регистров...

    2602. xameleon, 24.01.2013 12:53
    Tourlenta, спасибо.
    А если быть уж совсем честным, то в это доброе обсуждение, где общаются умные люди, хотелось добавить немного микроядра L4. (Надеюсь, ещё не всем надоел).

    В этом случае получается масштабируемое решение. Скажем, за 63 такта можно передать 62 регистра сопроцессору, включая сами числа и идентификаторы операций над ними. Пока сопроцессор считает, процессор может заниматься своими делами. Фишка такого решения - масштабируемость - можно подключить множество математических сопроцессоров на локальную шину и они будут считать действительно параллельно.

    Традиционные решения (не считая всяких CUDA и иже с ними), не позволяют масштабировать вычисления. Понимаете, в какую сторону я тяну одеяло?

    2603. Romaker, 24.01.2013 12:55
    xameleon
    ну так вроде MIC есть...

    2604. Marat Dukhan, 24.01.2013 13:30
    xameleon
    Фишка такого решения - масштабируемость - можно подключить множество математических сопроцессоров на локальную шину и они будут считать действительно параллельно.
    Точно также можно подключить много обычных ядер на общую шину и они будут считать параллельно. И программисты не будут вас ненавидеть за необходимость писать код в двух вариантах.

    2605. xameleon, 24.01.2013 13:50
    цитата:
    Marat Dukhan:
    Точно также можно подключить много обычных ядер на общую шину и они будут считать параллельно.

    Конечно, можно подключить много обычных ядер на общую шину, но это избыточное решение.

    цитата:
    И программисты не будут вас ненавидеть за необходимость писать код в двух вариантах.

    Кто знает, может быть они начнут ненавидеть традиционный вариант?

    2606. nenin, 24.01.2013 13:58
    цитата:
    xameleon:
    цитата:
    Marat Dukhan:
    [q]И программисты не будут вас ненавидеть за необходимость писать код в двух вариантах.
    Кто знает, может быть они начнут ненавидеть традиционный вариант?
    Диапазон вкусов, конечно, очень широк, но- нет, не будут. История CELL, CUDA и OpenCL как бы намекают, что жить надо проще.

    2607. xameleon, 24.01.2013 13:59
    Romaker, я никогда не слышал о MIC. Что это такое?

    Добавление от 24.01.2013 14:02:

    цитата:
    nenin:
    Диапазон вкусов, конечно, очень широк, но- нет, не будут. История CELL, CUDA и OpenCL как бы намекают, что жить надо проще.

    И о чём же гласят эти истории, не будете ли добры напомнить?

    2608. Romaker, 24.01.2013 14:16
    xameleon
    По этому есть отдельная ветка, (google -> MIC + Intel + Xeon Phi)

    2609. YgriK, 24.01.2013 14:20
    я никогда не слышал о MIC. Что это такое?
    шедеврально для этой ветки

    2610. Boris Usievich, 24.01.2013 14:26
    xameleon
    Пока сопроцессор считает, процессор может заниматься своими делами.
    так это и сейчас так

    2611. xameleon, 24.01.2013 14:55
    цитата:
    Boris Usievich: так это и сейчас так
    Так-то так, только сейчас при переключении задач планировщику операционной системы приходится следить за состоянием регистров FPU, чтобы другая задача их не потёрла. А я говорю об умном математическом сопроцессоре, который обменивается сообщениями по стандарту L4. В этом случае получем возможность масштабирования системы под необходимую вычислительную мощьность и минимальные накладные расходы при переключении задач.

    цитата:
    Romaker: По этому есть отдельная ветка, (google -> MIC + Intel + Xeon Phi)
    Спасибо. А много ли в мире пользователей, которые знают как равномерно загрузить эту мощь?

    2612. Boris Usievich, 24.01.2013 15:01
    xameleon
    Так-то так, только сейчас при переключении задач планировщику операционной системы приходится следить за состоянием регистров FPU, чтобы другая задача их не потёрла.
    чего там следить-то, спасли все регистры в сторону и все.

    А я говорю об умном математическом сопроцессоре, который обменивается сообщениями по стандарту L4.
    это чтобы помедленнее было, да?

    В этом случае получем минимальные накладные расходы при переключении задач и возможность масштабирования системы под необходимую вычислительную мощьность.
    С чего расходам быть меньше? все равно контекст на переключать так или иначе.

    2613. Romaker, 24.01.2013 15:03
    xameleon
    скажем так, их количество растет. Но это девайс не для обычных пользователей, им он и так не нужен в силу избыточности i5, i7...

    2614. Marat Dukhan, 24.01.2013 15:12
    xameleon
    Так-то так, только сейчас при переключении задач планировщику операционной системы приходится следить за состоянием регистров FPU, чтобы другая задача их не потёрла.
    Планировщику много за чем приходится следить, и сохранение регистров - самая маленькая из этих проблем.

    В этом случае получем минимальные накладные расходы при переключении задач и возможность масштабирования системы под необходимую вычислительную мощьность.
    Покажите мне вычислительную проблему, в которой накладные расходы на переключение задач не минимальны. Кроме того, многоядерность, GPGPU, SIMD, суперскалярность, Turbo-Boost и ещё куча технологий обеспечивают масштабирование системы под необходимую вычислительную мощность (по крайней мере, в некоторых пределах). Зачем ещё одна технология.

    А много ли в мире пользователей, которые знают как равномерно загрузить эту мощь?
    На том рынке, для которого создан Xeon Phi, вычислительных задач хватит.

    2615. xameleon, 24.01.2013 15:24
    цитата:
    Boris Usievich:
    чего там следить-то, спасли все регистры в сторону и все.


    Динамическое ОЗУ, относительно CPU, медленное устройство - его ещё "рефрешить" надо. Да и вообще, промежуточная пересылка данных - не самое лучшее решение.

    цитата:
    А я говорю об умном математическом сопроцессоре, который обменивается сообщениями по стандарту L4.
    это чтобы помедленнее было, да?


    На простых операциях будет медленнее. Если кормить математический сопроцессор "формулами", то будет быстрее. Я сейчас не готов описать протокол, как будут мысли - поделюсь.

    цитата:
    С чего расходам быть меньше? все равно контекст на переключать так или иначе.
    Да, но операция переключения контекста исключит заботу о состянии сопроцессоров. В худшем случае задача заблокируется, отдавая своё время другим задачам, исполняющимся на том же самом ядре.

    Добавление от 24.01.2013 15:25:

    Romaker, я имел в виду тех пользователей, кого так величает Intel в своих спецификациях на железо :)

    2616. nenin, 24.01.2013 15:30
    цитата:
    xameleon:
    цитата:
    nenin:
    Диапазон вкусов, конечно, очень широк, но- нет, не будут. История CELL, CUDA и OpenCL как бы намекают, что жить надо проще.
    И о чём же гласят эти истории, не будете ли добры напомнить?
    Да ради Бога: N лет тому носились с Cell как курица с яйцом, гигафлопсы пересчитывали. Типа, порвет всех... И где тот Cell?
    Потом начали педалировать тематику вычислений на GPU. Тут вышло лучше, однако ж никакой революции не случилось.
    Рекламка и жизнь слегка разошли, и за прирост производительности пришлось платить перелицовкой кода. А это в numbercrushing не очень любят. Что не удивительно, ежели Вы этим занимались.

    2617. Boris Usievich, 24.01.2013 15:31
    xameleon
    Динамическое ОЗУ, относительно CPU, медленное устройство - его ещё "рефрешить" надо.
    И что? кэши отменили?

    Да и вообще, промежуточная пересылка данных - не самое лучшее решение.
    Хотите наплодить по полному набору регистов для каждой задачи?

    Если кормить математический сопроцессор "формулами", то будет быстрее.
    С чего бы это? Скорость определяется быстродействием исполнительных устройств.

    Да, но операция переключения контекста исключит заботу о состянии сопроцессоров.
    И что случится, если 2 задачи захотят этот сопроцессор поюзать?

    2618. xameleon, 24.01.2013 15:33
    цитата:
    Marat Dukhan:
    Планировщику много за чем приходится следить, и сохранение регистров - самая маленькая из этих проблем.
    Так я с этим и не спорю. Разрешите полюбопытсвовать, Вы знакомились с "Формальным описанием аппаратного микроядра L4" в соседней теме?

    цитата:
    многоядерность, GPGPU, SIMD, суперскалярность, Turbo-Boost и ещё куча технологий обеспечивают масштабирование системы под необходимую вычислительную мощность (по крайней мере, в некоторых пределах). Зачем ещё одна технология.
    Для маленьких компаний, которые хотят стать большими. Никто, чей оборот меньше нескольких миллионов долларов, не будет даже пытаться лицензировать технологии у Intel и равных ей компаний.

    цитата:
    А много ли в мире пользователей, которые знают как равномерно загрузить эту мощь?
    На том рынке, для которого создан Xeon Phi, вычислительных задач хватит.
    Я имел в виду инженеров, которым предстоит решать эти задачи.

    Добавление от 24.01.2013 15:41:

    цитата:
    Boris Usievich:
    Динамическое ОЗУ, относительно CPU, медленное устройство - его ещё "рефрешить" надо.
    И что? кэши отменили?
    Очень может быть, что площадь, занимаемая кэшем на кремнии, может быть использована более оптимально.

    цитата:
    Да и вообще, промежуточная пересылка данных - не самое лучшее решение.
    Хотите наплодить по полному набору регистов для каждой задачи? :-\
    Нет, предлагаю держать математику в сопроцессоре/сопроцессорах. Т.е. микропроцессор подкармливает сопроцессор командами с формулами, периодически посылая и принимая асинхронные сообщения, которые обрабатываются синхронно.

    цитата:
    Если кормить математический сопроцессор "формулами", то будет быстрее.
    С чего бы это? Скорость определяется быстродействием исполнительных устройств.
    Математических сопроцессоров быть несколько. После передачи сообщения, сопроцессор и основной процессор работают независимо до момента приёма ответа.

    цитата:
    Да, но операция переключения контекста исключит заботу о состянии сопроцессоров.
    И что случится, если 2 задачи захотят этот сопроцессор поюзать? :rotate:
    Вторая задача блокируется. Возможен и вариант блокировки сопроцессора, если задача, пославшая запрос, не находится в состоянии ожидания ответа.

    2619. Romaker, 24.01.2013 15:46
    xameleon
    я что-то не припомню чтобы в "спецификациях на железо" интел упоминала пользователей. MIC, в основном, используются для моделирования (см. ветку по MIC) в научной среде. Для всяких "обычных домашних задач" оно не подойдет, так как одно упоминание слова "Linux" вгоняет в панику "обычных домашних пользователей", а слова Fortran/C++ MPI добивают контрольным выстрелом в Cortex. Хотите знать ~количество - пошерстите форум разработчиков intel. Все давайте с MIC заканчивать, тут воюют x86 VS ARM

    2620. Boris Usievich, 24.01.2013 16:06
    xameleon
    Очень может быть, что площадь, занимаемая кэшем на кремнии, может быть использована более оптимально.
    Сильно

    Нет, предлагаю держать математику в сопроцессоре/сопроцессорах. Т.е. микропроцессор подкармливает сопроцессор командами с формулами, периодически посылая и принимая асинхронные сообщения, которые обрабатываются синхронно.
    То есть вы хотите чтобы сопроцессор сам разбирался с разными задачами, да еще скрыть его реальное устройство?

    После передачи сообщения, сопроцессор и основной процессор работают независимо до момента приёма ответа.
    Повторяю, это так УЖЕ есть. закинули команду умножения и ждем

    Вторая задача блокируется.
    Вам мало способов завесить процессор, хотите еще добавить?

    2621. xameleon, 24.01.2013 16:19
    Romaker, я тоже не смог найти упоминания пользователей спеках Интела, но чётко помню, что так называли системных программистов в какой-то доке. Возмжно, это была не интеловская документация, а от DEC или AMD. Сожалею, что ввёл в заблуждение. Если откопаю спецификацию в архивах, то уточню.

    Добавление от 24.01.2013 16:25:

    цитата:
    Boris Usievich:
    То есть вы хотите чтобы сопроцессор сам разбирался с разными задачами, да еще скрыть его реальное устройство?

    Так точно!

    цитата:
    Повторяю, это так УЖЕ есть. закинули команду умножения и ждем :)

    Так я и не спорю, только предлагаю закидываь не команду, а выражение. А до получения результата можно сделать что-то полезное, например послать следующее выражение другому устройству, а лишь потом "послушать" ответ от любого готового устойства.

    цитата:
    Вторая задача блокируется.
    Вам мало способов завесить процессор, хотите еще добавить?

    Дык, я предлагал вообще отказаться от команды HLT, заменив её переходом в режим низкого энергопотребления в случае, если все задачи находятся в состоянии ожидания. Поэтому не завесить, а отдать свой квант времени другим задачам.

    2622. Boris Usievich, 24.01.2013 17:14
    xameleon

    ну вперед, только боюсь желающих осуществлять ваши гениальные идеи не найдется.

    2623. deadlock, 24.01.2013 17:26
    xameleon
    только предлагаю закидываь не команду, а выражение. А до получения результата можно сделать что-то полезное
    Вот, предположим есть некий выдуманный цикл

    float f = 0;
    for (size_t i = start; i < end; i++)
    f += s * table[i & mask];

    printf("result = %f", f);

    что и куда вы будете закидывать?

    Добавление от 24.01.2013 17:33:

    А вообще, лучше почитайте про устройство современных процессоров. В т.ч. на этом сайте много информации
    http://www.ixbt.com/cpu/sandy-bridge-1.shtml
    http://www.ixbt.com/platform/guide/

    2624. moderator-Tyan, 24.01.2013 17:49

    слава Богу, как все более-менее культурно начали общаться шутку -=GunFighter=- пришлось отправить на баш, но в целом спасибо участникам за более культурное общение!
    За это сообщение сказали спасибо: -=GunFighter=-

    2625. xameleon, 24.01.2013 18:21
    цитата:
    deadlock:
    Вот, предположим есть некий выдуманный цикл

    float f = 0;
    for (size_t i = start; i < end; i++)
    f += s * table[i & mask];

    printf("result = %f", f);

    что и куда вы будете закидывать?
    Подразумеваем, что выражения поступают в сопроцессор в виде обратной польской записи. Сопроцессор стэковый.
    На этапе инициализации обнулю верхний регистр на стеке(f=0)

    На каждой итерации буду посылать такое сообщение:
    [0] тэг (описывает, из чего состоит сообщение)
    [1] значение переменной/константы s (кладётся сверху нуля)
    [2] результат выполнения операции table[i & mask] (кладётся сверху s)
    [3] код операции умножения
    [4] код операции сложения
    Итого - пять тактов на передачу сообщения. Как и когда оно дальше будет выполняться - не имеет значения, главное лишь то, что для перехода на следующую итерацию, необходимо дождаться ответного сообщения от сопроцессора:

    [0] тэг
    [1] результат выполнения выражения

    Ешё два 2 такта.

    цитата:
    А вообще, лучше почитайте про устройство современных процессоров. В т.ч. на этом сайте много информации
    С удовльствием.

    2626. deadlock, 24.01.2013 18:56
    xameleon
    Сопроцессор стэковый.
    Давно уже забытое прошлое. Железу потребуется всё равно его переименовывать в регистры, чтобы быстро выполнять.
    Но это всё меркнет по сравнению с
    цитата:
    Итого - пять тактов на передачу сообщения
    Ешё два 2 такта.
    Не считая времени исполнения
    То что я написал - это 1 FMA операция, которых за 1 такт может быть запущено несколько штук (на SIMD или нескольких юнитах FPU).

    2627. xameleon, 24.01.2013 19:12
    цитата:
    deadlock:
    Давно уже забытое прошлое. Железу потребуется всё равно его переименовывать в регистры, чтобы быстро выполнять.
    Переименовывание можно реализовать коммутацией, которая не потребует дополнительных тактов.

    цитата:
    Не считая времени исполнения
    Пример весьма и весьма простой, поэтому выигрыш невозможен. Но в 62 регистрах сообщений можно запихнуть довольно сложные вычисления.

    цитата:
    это 1 FMA операция, которых за 1 такт может быть запущено несколько штук (на SIMD или нескольких юнитах FPU).
    Синтетический пример, относящийся к классу задач, на которых выигрыш FMA операций очевиден. Давайте посчитаем расстояние между двумя точками в трехмерном пространстве - будет интереснее. :)

    2628. nenin, 24.01.2013 19:59
    цитата:
    xameleon:
    цитата:
    deadlock:
    [q]А вообще, лучше почитайте про устройство современных процессоров. В т.ч. на этом сайте много информации
    С удовльствием.
    http://www.agner.org/optimize/?e=0#manuals

    2629. xameleon, 24.01.2013 20:14
    цитата:
    nenin:
    http://www.agner.org/optimize/?e=0#manuals

    Спасибо, очень интересно. Особенно удивило вот это:

    Object file converter
    "This utility can be used for converting object files between COFF/PE, OMF, ELF and Mach-O formats for all 32-bit and 64-bit x86 platforms. Can modify symbol names in object files. Can build, modify and convert function libraries across platforms. Can dump object files and executable files. Also includes a very good disassembler supporting the SSE4, AVX, AVX2, FMA and XOP instruction sets. Source code included (GPL)."

    Давно и безуспешно искал нечто подобное.

    2630. ABR, 25.01.2013 13:42

    intel lexington(atom z2420 1.2ghz) неожиданно много набирает в антуту 12365. Благодаря скорее всего слабому разрешению, которое способствует огромному скору за 3д графику www.techweez.com/2013/01/24/intel-zeeya-beach-yolo-review/

    2631. Romaker, 25.01.2013 14:44
    вот еще один обзор планшетника на х86:
    http://habrahabr.ru/company/dell/blog/166943/
    состав интел, груженый щебнем кремнием, набирает скорость...
    За это сообщение сказали спасибо [2]: matik, Boris Usievich

    2633. ABR, 25.01.2013 16:20
    холо дороговат, за эту цену должны были ставить разрешением минимум 800 на 480, а вот если бы у сафариком было бы 800 на 480, был бы однозначный хит

    Добавление от 25.01.2013 16:34:

    а ведь самое интересное и то, что холо х500 и сафариком без труда обеспечат комфортную частоту кадров в любой игре, даже в том же shadowgun

    2634. deadlock, 27.01.2013 16:24
    Romaker
    состав интел, груженый щебнем кремнием, набирает скорость
    Постой, паровоз, не стучите колёса...
    цитата:
    Only server CPUs grew this quarter – up 2.4 percent and again due solely to Intel. The mobile segment was down 8.9 percent in the fourth quarter, while desktop CPUs were down 7.0 percent.

    цитата:
    If ARM-based computing devices were included in the annual share computations, collectively they would hold 24.6 percent of the market, up from 12.6 percent in 2011.

    http://investorvillage.com/smbd.asp?mb=476&mn=25…&mid=12488526
    За это сообщение сказали спасибо: ssvb

    2635. Romaker, 27.01.2013 16:42
    deadlock
    одна фраза "ARM-based computing devices" вызывает улыбку , вот сейчас не вспомню откуда, но звучала такая фраза что ARM CPU's are good in doing nothing , а бездельников сейчас косой не выкосить

    2636. tolyanIzNska, 27.01.2013 21:38
    Romaker
    одна фраза "ARM-based computing devices" вызывает улыбку

    Примерно как "х86 серверы и суперкомпьютеры" у производителей мейнфреймов лет эдак 15 назад?

    2637. nenin, 28.01.2013 03:20
    цитата:
    tolyanIzNska:
    Romaker
    одна фраза "ARM-based computing devices" вызывает улыбку

    Примерно как "х86 серверы и суперкомпьютеры" у производителей мейнфреймов лет эдак 15 назад?
    Суперы были ещё на 486. Неужели запамятовали?

    2638. AVK74, 28.01.2013 13:02
    nenin
    Суперы были ещё на 486. Неужели запамятовали?

    Интересно стало, подкиньте ссылку?

    2639. nenin, 28.01.2013 15:26
    цитата:
    AVK74:
    nenin
    Суперы были ещё на 486. Неужели запамятовали?

    Интересно стало, подкиньте ссылку?
    Я уже кидал было... Что-то типа этого: http://en.wikipedia.org/wiki/Sequent_Computer_Systems

    2640. Romaker, 28.01.2013 15:26
    nenin
    я как-то тоже не припомню суперов на 486, вот на Рпро были, а на 486...
    спасибо за ссылку!

    да нашел еще более древний на сайте интел
    http://www.intel.com/content/www/us/en/history/historic-timeline.html
    1982 год

    2641. fineman, 28.01.2013 15:39
    Еще в 98-м году народ смеялся с "графическая рабочая станция на x86". Tак что да, 15 лет назад еще смеялись

    2642. nenin, 28.01.2013 15:44
    цитата:
    fineman:
    Еще в 98-м году народ смеялся с "графическая рабочая станция на x86". Tак что да, 15 лет назад еще смеялись
    Ага, так смеялся что аж памперсы менять приходилось.
    За это сообщение сказали спасибо: Romaker

    2643. Romaker, 28.01.2013 15:58
    цитата:
    fineman:
    Еще в 98-м году народ смеялся с "графическая рабочая станция на x86". Tак что да, 15 лет назад еще смеялись

    цитата:
    Всего несколько лет назад термин "графическая рабочая станция" обозначал фирменную архитектуру компаний HP, IBM, Silicon Graphics или Sun на базе RISC-микропроцессора, работающую под управлением одной из разновидностей UNIX. Лишь эти машины ценой не менее 15 тыс. долл., могли выполнять 3D-программы с высоким разрешением, значительно превосходящие возможности традиционных ПК.

    Благодаря появлению в последние два года многопроцессорной ОС Windows NT, усовершенствованных графических подсистем OpenGL для ПК и мощных микропроцессоров Pentium II, Pentium III и Xeon, сократился разрыв в производительности между машинами Intel и RISC-компьютерами UNIX. В то же время перенос большого числа приложений для рабочих станций в среду Windows NT и лучшее соотношение цена/производительность, характерное для рабочих станций х86 с начальной ценой менее 5 тыс. долл., привели к взрывному росту объемов продаж в этом секторе рынка. По данным фирмы International Data Corp., в 1998 г. рабочие станции x86 составили 56% от числа всех проданных.

    *Публикуется в сокращении. Полный текст обзора и иллюстрации содержатся в выпуске PC Magazine/Russian Edition за июль 1999 г.

    2644. YgriK, 28.01.2013 16:01
    Romaker
    гдето в те времена говорили, что SGI сделала 2 главных своих ошибки - родила дешёвое железо(мамка под П3, чипсет, графика) и потом свернула разработку такого железа

    2645. tolyanIzNska, 28.01.2013 19:53
    Romaker

    Зиону ещё 15 не стукнуло...

    2646. Romaker, 28.01.2013 20:15
    tolyanIzNska
    первый был в 1998 году..., выходит уже 15 лет стукнуло

    2647. fineman, 28.01.2013 20:23
    Romaker
    Расскажите-ка про рынок станций "могли выполнять 3D-программы с высоким разрешением, значительно превосходящие возможности традиционных ПК" в 99 году. Где там высокая доля х86 и, особенно Windows. Очень интересно послушать, ага.

    2648. Korzh, 28.01.2013 20:24
    Неа -- летом стукнет
    ЕМНИП в августе.

    Другой вопрос, что это не так уж и важно -- число плат в сервере разве что сократилось.
    А так машинку от Tricord об восьми пеньках мы еще в 1996 купили... или даже в 95-м... уже точно не помню...
    Ну и Sequent еще раньше были...

    Тут, в общем-то, года сравнивать не совсем корректно
    Intel переориентировалась на процессоры как основную продукцию со времен трешки.
    30 лет еще не прошло, но уже по первым 10 годам результат хорошо был виден, а вторые -- контрольный выстрел.

    ARM Holdings с момента основания в 1990 году ничем, кроме процессоров не занималась... И?

    2649. nenin, 28.01.2013 21:13
    цитата:
    tolyanIzNska:
    Romaker

    Зиону ещё 15 не стукнуло...

    До того он назывался PentiumPro

    2650. tolyanIzNska, 28.01.2013 22:13
    Korzh
    Intel переориентировалась на процессоры как основную продукцию со времен трешки.
    30 лет еще не прошло, но уже по первым 10 годам результат хорошо был виден, а вторые -- контрольный выстрел.


    Да, у всех было свое золотое время.

    Пару лет назад вызывала улыбку идея, что производитель процессоров "для тостеров" превзойдет по капитализации Интел.

    2651. Mumie01, 28.01.2013 22:42
    tolyanIzNska
    Пару лет назад вызывала улыбку идея, что производитель процессоров "для тостеров" превзойдет по капитализации Интел.

    Почему-то то, что некоторые фирмы, которые вообще ничего физического не выпускали (как например MS) превосходили Интел по капитализации как-то ни у кого улыбки не вызывало...
    Зато, пару лет назад вызывала улыбку идея что х86 может превзойти какой либо арм процессор по энергосбережению...
    Если же говорить о пересекающихся направлениях деятельности Интела и АРМ, то Интел уже "там" (в телефонах), а АРМ до производительности х86 (серверов, десктопов и т.д.) ещё как до Луны.
    Кстати, х86 в своё время побил "риски" производительностью и ценой. Пока что ни того, ни друго-го со стороны АРМ не наблюдается. Дешевые ядра в телефонах это одно, но если серверный софт будет вылетать с такой же частотой как "апсы" на телефонах (при чём неизвестно кто виноват больше - софт или железо), то нафих там арм будет кому-то нужен...

    2652. tolyanIzNska, 28.01.2013 22:59
    Mumie01

    то Интел уже "там" (в телефонах)


    Да, примерно так же как АРМ на декстопах: можно купить хоть сейчас, но страшно узок их круг, непонятно зачем, и светлое будущее опять через год...

    2653. Boris Usievich, 28.01.2013 23:08
    tolyanIzNska
    Да, примерно так же как АРМ на декстопах: можно купить хоть сейчас
    ой, покажите, где продается и чего десктопного может запустить? Да, developer board не катит

    2655. Nick 'nVr', 29.01.2013 00:52
    Boris Usievich
    VIA их делает и продает. В последнее время даже здесь проскакивали новости
    Убожество жуткое, но зато не Developer Board.

    2656. Mumie01, 29.01.2013 04:55
    tolyanIzNska
    Да, примерно так же как АРМ на декстопах: можно купить хоть сейчас, но страшно узок их круг, непонятно зачем, и светлое будущее опять через год...

    Есть разница... и такая огромная, что прямо удивительно что вы её не заметили. Телефоны на х86 пока что не очень распространены, но вполне конкурентоспособны (в цене, производительности и энергопотреблении). Есть телефоны на х86 в нижнем и среднем ценовом сегменте, скоро будут и в верхнем... Десктопы/лэптопы на арм близко не стояли даже с задохликами селеронами, не говоря уже об отсутствии "отполированной" дектопной OS и серверной инфраструктуры.

    2657. AVK74, 29.01.2013 05:53
    Mumie01
    Телефоны на х86 пока что не очень распространены, но вполне конкурентоспособны
    Обычно конкурентоспособные продукты очень быстро распространяются, так?
    Взять Андроид например. А тут что-то тишина пока.

    2658. nenin, 29.01.2013 13:26
    цитата:
    AVK74:
    Mumie01
    Телефоны на х86 пока что не очень распространены, но вполне конкурентоспособны
    Обычно конкурентоспособные продукты очень быстро распространяются, так?
    Взять Андроид например. А тут что-то тишина пока.

    В случае телефонов очень много тонкостей.
    За это сообщение сказали спасибо: Nick 'nVr'

    2659. Nick 'nVr', 29.01.2013 13:34
    В случае телефонов очень много тонкостей.
    Очаровательная двусмысленность. Спасибо.

    2660. barmaglot00, 29.01.2013 13:49
    tolyanIzNska

    Фуджики выложили первые бенчмарки Х:
    http://jp.fujitsu.com/platform/server/sparc/news/article/13/0118/

    SPECint_rate_base2006: 23800 на кластере 64 х 16ядер х 3ГГц, т.е. 23.24 на ядро

    Для сравнения
    Сандик
    http://www.spec.org/cpu2006/results/res2013q1/cpu200…121210-25282.html
    188 на 4 ядра х 3ГГц, т.е. 47 на ядро

    Пиляд-драйвер:
    http://www.spec.org/cpu2006/results/res2013q1/cpu200…121204-25267.html
    217 на 12 ядер х 3ГГц, т.е 18.1 на ядро

    Для закапывания АМД годиццо

    2661. Mumie01, 29.01.2013 14:26
    AVK74
    Обычно конкурентоспособные продукты очень быстро распространяются, так?
    Взять Андроид например. А тут что-то тишина пока.


    А у вас есть статистика по продажам, там, где они продаются?

    2662. Boris Usievich, 29.01.2013 14:30
    barmaglot00
    еще интересно потребление.

    2663. Mumie01, 29.01.2013 14:32
    Кстати, неплохая статья:

    http://www.realworldtech.com/microservers/

    Кучки дешёвых ядер совершенно не достаточно для "полного щастья" в серверах.

    2664. barmaglot00, 29.01.2013 14:54
    Boris Usievich
    еще интересно потребление.
    Ну кто ж его открыто скажет... TDP Ватт 200, если не больше

    2665. Nick 'nVr', 29.01.2013 14:59
    barmaglot00
    >Thermal Design Power 65 Watt
    >Thermal Design Power 80 Watt
    (c) cpu-world
    Осталось угадать, где Оптерон

    2666. nenin, 29.01.2013 16:29
    цитата:
    Nick 'nVr':
    В случае телефонов очень много тонкостей.
    Очаровательная двусмысленность. Спасибо.
    Да что уж там двусмысленного? У меня три оператора, каждый торгует базовыми брэндами и ОЕМ. Из каких соображений они выбирают, чем именно торговать - одному Богу известно. Нелокнутых телефонов в свободной продаже мало. Итого мне в свое время пришлось искать чего хочу по Инету, и при подключении имел глюки, которые оператор исправлять не рвался. Европа, однако.

    2667. tolyanIzNska, 29.01.2013 19:05
    barmaglot00
    Фуджики выложили первые бенчмарки Х:

    В кластере х86 отмасштабируется без потерь?

    2668. barmaglot00, 29.01.2013 19:30
    tolyanIzNska

    В кластере х86 отмасштабируется без потерь?
    Нет, конечно.

    Вот результат Санди на 1024 ядра, частота 2.7
    http://www.spec.org/cpu2006/results/res2012q4/cpu200…120924-24536.html
    31100 на 1024 ядра = 30.4 на ядро

    Вот этот же проц в 4-сокетной машине
    http://www.spec.org/cpu2006/results/res2012q3/cpu200…120827-24354.html
    1180 на 32 ядра = 36.9 на ядро.

    2670. fineman, 29.01.2013 23:00
    Из комментов к статье: "Гораздо логичнее было-бы сравнить ARM и x86 Intel Atom в среде Android, вот только результаты были-бы гораздо печальнее."
    Меня давно уже терзают смутные сомнения на предмет того, зачем M$ вообще взялась за WinRT и как на нее повлияла давняя связь с Intel Пусть с Android лучше сравнивают.

    2671. Romaker, 29.01.2013 23:14
    пусть накатят убунту и сравнивают, ибо андроид это еще тот "кусок госэ"

    2672. fineman, 29.01.2013 23:29
    Romaker
    Бубунта вообще позор линукс

    2673. Romaker, 29.01.2013 23:52
    позор линукс - это поделочка-гуглочка-андроид. Убунта на debian.
    У меня расчеты все под debian, 100% нагрузка CPU 24/7/365. Самый стабильный free дистрибутив линукса, надежный как бетонный пол. На вшивой гуглоделочке апсы вылетают с поразительной частотой , ага.

    2674. fineman, 30.01.2013 01:06
    цитата:
    Romaker:
    позор линукс - это поделочка-гуглочка-андроид. Убунта на debian.
    У меня расчеты все под debian, 100% нагрузка CPU 24/7/365. Самый стабильный free дистрибутив линукса, надежный как бетонный пол. На вшивой гуглоделочке апсы вылетают с поразительной частотой , ага.

    Вы, видимо, не в курсе, говоря о стабильности Убунту на основании стабильности Дебиана. Убунту это нестабильная ветка Деба со всеми вытекающими. Добавить фигзна какую систему пакетов, типа юзерфрендлиность, незаточку ни под какое железо, отсутствие пока роллинг релизов и т.д. и что на выходе? Тормозящее глюкавое не пойми что. Так что не надо сказок.
    А что у Вас там на хомяке что-то работает, так кого волнует. Fedora у нас на рабочем кластере из нескольких тысяч ядер под нехилой нагрузкой 24/7/356 тоже прекрасно работает, что никак не делает ее лучше ))
    Так что если и тестировать мобильные процы не на мейнстримной оси, то тогда на такой, которая легко поддается заточке. У меня дома два хороших примера: один нетбук на Atom N450 под Kubuntu, другой под Gentoo. Как будто два абсолютно разных процессора.

    2675. Romaker, 30.01.2013 01:45
    да нет, я видимо в курсе что такое стейбл, сид и тест ветки дебиана на которых построена убунта. А то что у вас кластер на хххх ядер на тестовом полигоне редхет типа федора, так это тоже никому не интересно. Так что не надо сказок. Ну вы ведь метите АРМ на десктоп, ну вот и полезно будет сравнить на мейнстримной оси. Андроид это все что угодно, но это не полноценная ОС. И никакие новые версии кернел ей не помогут...

    2676. fineman, 30.01.2013 03:04
    цитата:
    Romaker:
    да нет, я видимо в курсе что такое стейбл, сид и тест ветки дебиана на которых построена убунта. А то что у вас кластер на хххх ядер на тестовом полигоне редхет типа федора, так это тоже никому не интересно. Так что не надо сказок. Ну вы ведь метите АРМ на десктоп, ну вот и полезно будет сравнить на мейнстримной оси. Андроид это все что угодно, но это не полноценная ОС. И никакие новые версии кернел ей не помогут...

    Тогда к чему был пассаж о Дебе? Непонятно. По поводу неполноценности есть хороший пример от M$ и ничего, никого не останавливает на протяжении не одного десятка лет
    Про тестовый полигон я пропущу мимо, все равно Вы не в курсе, спорить смысла нет

    2677. Mumie01, 30.01.2013 04:41
    fineman
    Тормозящее глюкавое не пойми что. Так что не надо сказок.

    Не тормозящая и не глюкалово. И на атоме прекрасно и быстро работает... хотя от Unity я не в восторге. Fedora, правда, тоже ничего. Хотя если уж сравнивать х86 с арм, то врядли вы захотите делать это под Fedora

    http://www.phoronix.com/scan.php?page=article&it…eta_arm&num=2

    2678. fineman, 30.01.2013 05:32
    Mumie01
    У меня нет особого желания расписывать, что не так с Убунтами и Федорами

    2679. SAmazon_D, 30.01.2013 14:14
    На Ф-Центр в бою сошлись ARM, PPC и Atom в версии от Synology - http://www.fcenter.ru/online.shtml?articles/hardware/hdd/34987
    Может кому интересно...

    2680. YgriK, 30.01.2013 14:30
    SAmazon_D
    пока всё нормально - Интелу надо раза в 2 понизить потребление, АРМу надо раз так в 5-10 повысить производительность

    2681. SAmazon_D, 30.01.2013 14:42
    YgriK
    цитата:
    Интелу надо раза в 2 понизить потребление
    Как бы уже. Другой вопрос, что новые атомные-SoC до конечных потребителей все никак не дойдут. То что стоит в DS412+ не было на острие технического прогресса да же в момент выхода в позапрошлом году.

    2682. YgriK, 30.01.2013 14:44
    SAmazon_D
    интел снизит потребление, а арм поставит хотябы 2х ядерник. Значит нужен новый обзор

    2683. Boris Usievich, 30.01.2013 14:46
    YgriK
    Интелу надо раза в 2 понизить потребление
    NAS это не телефон, воткнут в розетку, так что потребление не особо критично.

    2684. YgriK, 30.01.2013 14:51
    Boris Usievich
    это да. Просто когда девайс быстрее на порядок, а жрёт всеголишь в 2 раза больше, то это фатально для оппонента. Тоесть можно сказать что АРМу здесь ВАЩЕ ничё не светит. Но чтобы финализировать диагноз надо свежее железо оттестить. Кстати, не плохобы и цену в сравнение добавить.. исключительно ради истины в диагнозе

    2685. Boris Usievich, 30.01.2013 14:54
    YgriK
    Тоесть можно сказать что АРМу здесь ВАЩЕ ничё не светит.
    ну почему, сейчас АРМы более менее юзабельны в NAS попроще. у меня вон стоит

    2686. YgriK, 30.01.2013 14:57
    Boris Usievich
    ОК, давай пиши почему в магазине был куплен именно этот девайс, а не соседний?

    2687. Boris Usievich, 30.01.2013 15:02
    YgriK
    На 4 диска - дороговато, тем более в нем сейчас 1 стоит. из 2-дисковых - в этом есть E-SATA и USB3. процессор в выборе участия не принимал

    2688. YgriK, 30.01.2013 15:06
    Boris Usievich
    ага, понял. Нужен был дешевый девайс, "шоб былО" так сказать, без всяких лишних заморочек.
    Просто интересно тогда - согласится ли народ покупать дешевый арм-девайс если он очень сильно будет проигрывать по скорости?
    Тоесть получается ли что арм NAS-девайсы это исключительно упрощенная модель с минимумом фич и платфолрма без возможности существенного ускорения?

    2689. Boris Usievich, 30.01.2013 15:12
    YgriK

    Просто интересно тогда - согласится ли народ покупать дешевый арм-девайс если он очень сильно будет проигрывать по скорости?
    скорости чего? процессорная производительность для собствено NAS пофиг, хватит на загрузку Гигабитной сетки и ладно.
    Вот если зачем-то хочется гонять на нем транскодинг ...

    2690. YgriK, 30.01.2013 15:16
    Boris Usievich
    вот картинка. Раз она есть, значит ктото подобным занимается. Правда я не в курсе что конкретно тормозит на порядок, но ТОРМОЗИТ же
    549x303, 5.7Kb

    2691. Boris Usievich, 30.01.2013 15:29
    YgriK
    Правда я не в курсе что конкретно тормозит на порядок, но ТОРМОЗИТ же
    тут - процессор, естественно.

    2692. YgriK, 30.01.2013 15:35
    Boris Usievich
    знавал я одну телефонную арм-прошивку, у которой каждый вызов FileExists() вводил девайс в ступор на секунды. FileOpen() работал на ура

    2693. Tyan Tiger, 30.01.2013 15:39
    странно, что пропустили (http://www.overclockers.ru/hardnews/51839/Qualcomm_zajmetsya_razrabotkoj_servernyh_processorov.html) , Qualcomm займётся разработкой серверных процессоров

    2694. Romaker, 30.01.2013 15:41
    Tyan Tiger
    надеюсь читали http://www.realworldtech.com/microservers/
    За это сообщение сказали спасибо: Tyan Tiger

    2695. Vkni, 30.01.2013 15:49
    цитата:
    YgriK
    Просто когда девайс быстрее на порядок, а жрёт всеголишь в 2 раза больше, то это фатально для оппонента.
    Ничего подобного. Там ведь главный вопрос - цена, а АРМы стоят копейки.

    А тормозит там совершенно некритичная для устройства в данном сегменте рынка фича. Там же, где тормоза критичны, Synology использует более дорогие, но более быстрые процессоры.

    2696. YgriK, 30.01.2013 15:52
    Vkni
    поэтому я и писал что в подобных обзорах цену надо указывать

    2697. Vkni, 30.01.2013 15:55
    цитата:
    YgriK
    поэтому я и писал что в подобных обзорах цену надо указывать

    В данном случае нужно указывать цену процессора АРМ и цену процессора Атом для фирмы Synology. Ведь устройства отличаются не только процессорами. К сожалению, определить эти закупочные цены невозможно.

    2698. YgriK, 30.01.2013 15:58
    Vkni
    зачем народу знать цену комплектующих на айфон, если они покупают конечный продукт?

    2699. Vkni, 30.01.2013 17:01
    цитата:
    YgriK
    зачем народу знать цену комплектующих на айфон, если они покупают конечный продукт?
    "Народу" вообще всё незачем. Более того, ему по-барабану, какой там в iPhone процессор - хоть SPARC. А у нас тут беседа именно о процессорах.

    2700. YgriK, 30.01.2013 17:06
    Vkni
    у нас беседа о конечной платформе на процессорах.
    Изза того, что у меня щас справа 4 арм-девайса я не перестану юзать х86-десктоп слева

    2701. ssvb, 30.01.2013 19:46
    цитата:
    fineman:
    Так что если и тестировать мобильные процы не на мейнстримной оси, то тогда на такой, которая легко поддается заточке. У меня дома два хороших примера: один нетбук на Atom N450 под Kubuntu, другой под Gentoo. Как будто два абсолютно разных процессора.
    Gentoo и на ARM железе работает несколее шустрее, чем Linaro/Ubuntu (http://www.phoronix.com/scan.php?page=article&item=gentoo_linaro_odroid) . Тут уж кому что нравится, выбор всегда есть (всякие Fedora и Arch до кучи).

    Добавление от 30.01.2013 19:50:

    цитата:
    YgriK:
    вот картинка. Раз она есть, значит ктото подобным занимается. Правда я не в курсе что конкретно тормозит на порядок, но ТОРМОЗИТ же
    549x303, 5.7Kb
    На графике/видео/мильтимедиа задачах тормозит отсутствие поддержки SIMD инструкций (которые почему-то не любят поддерживать в процессорах для NAS) и/или банальное отсутствие оптимизированных библиотек в прошивке сего девайса по недосмотру/лени разработчиков.

    2702. tolyanIzNska, 30.01.2013 21:48
    barmaglot00

    Вот результат Санди на 1024 ядра, частота 2.7
    http://www.spec.org/cpu2006/results/res2012q4/cpu200…120924-24536.html
    31100 на 1024 ядра = 30.4 на ядро


    То есть мощнейший на сегодня х86 чип в сравнимых условиях может выдать в пересчёте на ядро + ~25% чем SPARC ?

    Но у того ядер в 2 раза больше, в железе выполняется гораздо больше криптоалгоритмов, в системе больше оперативки, есть специальные инструкции по работе с базами данных...

    Хотя инфы ещё мало

    2703. deadlock, 31.01.2013 03:24
    ssvb
    На графике/видео/мильтимедиа задачах тормозит отсутствие поддержки SIMD инструкций
    Да что бы там ни было, так тормозить не должно. Ну было бы в скаляре вдвое тормознее атома а не в 20.
    Скорее всего как всегда индусы запилили код с выключенной оптимизацией.

    2704. Marat Dukhan, 31.01.2013 04:24
    deadlock
    Да что бы там ни было, так тормозить не должно. Ну было бы в скаляре вдвое тормознее атома а не в 20.
    Скорее всего как всегда индусы запилили код с выключенной оптимизацией.

    Одна SSE2-инструкция может параллельно обрабатывать 16 байт, а Atom умеет выполнять две SSE2-инструкции за такт. PJ1 (в обзоре) умеет только одну, и только скалярную. Вообще без NEON, WMMX или хотя бы ARMv6 в видеокодировании ловить нечего.

    2705. barmaglot00, 31.01.2013 10:02
    tolyanIzNska
    То есть мощнейший на сегодня х86 чип в сравнимых условиях может выдать в пересчёте на ядро + ~25% чем SPARC ?

    Не передергивайте. Не "мощнейший", а тот, для которого есть результат в базе SPEC на 1024 ядра.
    Не "в сравнимых условиях", т.к. частота 2.7ГГц против 3.0 у СПАРКа
    Не "+ ~25%", а на секундочку 30.4 / 23.24 = 31%.

    А ядро к ядру на 3ГГц я приводил, даже с учетом 10% потерь на кластере для СПАРК получится проигрыш в 1.9 раза

    Единственное, в чем СПАРК преуспел - это SPECint_rate на сокет. На сокет выдает больше, да.

    2706. tolyanIzNska, 31.01.2013 12:07
    barmaglot00
    Не передергивайте. Не "мощнейший", а тот, для которого есть результат в базе SPEC на 1024 ядра.

    А что, у х86 есть кто-то сильнее E5-4650?

    частота 2.7ГГц против 3.0 у СПАРКа

    А кого это волнует? Пусть выпускают на 3.0

    А ядро к ядру на 3ГГц я приводил, даже с учетом 10% потерь на кластере для СПАРК получится проигрыш в 1.9 раза

    Там тоже предергивание ещё то.

    Эти чипы не являются конкурентами вообще, да и условия того теста странные ( два процессора, в каждом активны только два ядра... очень реалистичный сценарий зато хорошо демонстрировать "производительность на ядро" )

    2707. barmaglot00, 31.01.2013 12:11
    tolyanIzNska

    А что, у х86 есть кто-то сильнее E5-4650?
    Да, аж на 200 Ньютонов. А по производительности - E7-8870 например


    Там тоже предергивание ещё то.
    Да ну ? То есть, когда тут Атомы с АРМами сравнивают, так все к одной частоте стремятся привести. А когда х86 против СПАРКА сравнивается на РАВНОЙ частоте - это передергивание. Экая система двойных стандартов у вас.

    2708. tolyanIzNska, 31.01.2013 12:13
    barmaglot00

    И как покупателя 4Р системы будет греть факт, что такие же процы в 2Р работали бы на 300 МГц быстрее?

    Добавление от 31.01.2013 12:17:

    barmaglot00
    А по производительности - E7-8870 например

    10 ядер нехалема на 2.4 и медленной памятью против 8 Сэнди на 2.7 ? Сомневаюсь...

    2709. barmaglot00, 31.01.2013 12:18
    tolyanIzNska

    И как покупателя 4Р системы будет греть факт, что такие же процы в 2Р работали бы на 300 МГц быстрее?
    Никак. Выбор за покупателем исходя из его задачи. Подходит ему 2Р/кластер из 2Р или 4Р/кластер или 8Р - решать ему. А Интелу надо сократить перехлесты семейств по производительности.

    2710. tolyanIzNska, 31.01.2013 13:01

    Кстати, Qualcomm получил 1.9 млрд чистой прибыли за последний квартал, показав хороший рост.
    Интел - 2.5 млрд, но падает.

    2711. Romaker, 31.01.2013 13:30
    tolyanIzNska
    нехорошо в чужой карман смотреть....

    2712. YgriK, 31.01.2013 13:53
    Romaker
    он думает в чей карман свою денежку положить

    2713. Romaker, 31.01.2013 13:59
    YgriK
    а чего там думать, там и так все известно

    2714. deadlock, 31.01.2013 14:06
    Marat Dukhan
    Одна SSE2-инструкция может параллельно обрабатывать 16 байт, а Atom умеет выполнять две SSE2-инструкции за такт.
    И толку? Это не обьясняет 20-кратные тормоза.

    2715. Boris Usievich, 31.01.2013 14:19
    deadlock
    Напишите в synology - объясните им, где они не правы. Я как пользователь NAS на ARM скажу спасибо

    2716. barmaglot00, 31.01.2013 14:34

    2718. nenin, 31.01.2013 16:30
    цитата:
    barmaglot00:
    Вот и Acer подтянулся
    http://www.zdnet.com/sea-to-see-intel-powered-smartp…uture-7000010537/
    Как Хуавей подтянется- могут начаться погромы.

    2719. Romaker, 31.01.2013 16:34
    nenin
    погнали наши городских...вдоль реки, поближе к лесу

    2720. XSol, 31.01.2013 17:15
    nenin
    Как Хуавей подтянется- могут начаться погромы.
    Зачем Хуавею Интелы, когда они сами с своими усамиSoC

    2721. Vkni, 31.01.2013 18:08
    цитата:
    lex73
    Интел правильно делает, что нацелен на африку, там население больше миллиарда человек.

    Только вот у них проблем побольше, чем выбор смартфона на АРМ или х86.

    2722. Marat Dukhan, 31.01.2013 20:04
    deadlock
    Marat Dukhan
    Одна SSE2-инструкция может параллельно обрабатывать 16 байт, а Atom умеет выполнять две SSE2-инструкции за такт.
    И толку? Это не обьясняет 20-кратные тормоза.

    Чтобы объяснить 20-кратные тормоза нужно всего лишь умножить 16 на 2 и слегка дисконтировать.

    2723. deadlock, 31.01.2013 22:11
    Marat Dukhan
    Лихо вы умножаете. Попробуйте какой-нибудь х264 откомпилировать в скалярном режиме, для начала.
    Т.е. скалярный C vs. ASM+SIMD

    2724. Дмитрий Ищенко, 31.01.2013 22:31
    Изивните, если вопрос немного не по теме, но интересует вот что. Есть нетбучный процессор AMD E1 - 1200. Два X86 - ядра, 1,4 ГГц. И есть для мобильной техники - смартфонов на Android, планшетов - мощный четырехъядерный процессор (не знаю точно производителя, но вроде 1,5ГГц*4). Вопрос - если исключить TDP совсем, насколько сопоставима производительность этих процессоров, хотя бы условно (архитектуры - то разные)?

    2725. deadlock, 31.01.2013 22:54
    Дмитрий Ищенко
    Давайте уж двухядерники сравнивать с двухядерниками =)
    http://browser.primatelabs.com/geekbench2/1581506 2xbobcat@1.4GHz 1444
    http://browser.primatelabs.com/geekbench2/1595814 2xkrait@1.5GHz 1360

    не знаю точно производителя
    Лучше вспомнить

    2726. PapaBear, 31.01.2013 23:15
    ну, если SIMD исключить, то Интел - сливает "в дым", не только AMD но и соседям по цеху.
    что собсно и происходит в тяжелом коде, которому SSE - как мертвому припарки.

    2727. Дмитрий Ищенко, 31.01.2013 23:15
    deadlock
    Спасибо большое. Я имел ввиду скорее всего что - то вроде этого: http://www.nvidia.ru/object/tegra-3-ru.html Tegra 3 от Nvidia. Просто стало интересно каков сейчас разрыв между самыми медленными X86 и самыми быстрыми ARM (смарты ведь на ARM?). Хотя напрямую, конечно сравнивать нельзя. Может когда - нибудь моя мечта - работать на смартфоне в AutoCAD/КОМПАС и MathCAD станет реальностью.. По такому случаю даже расстанусь с древней Nokia 6630.

    2728. derek_keiz, 31.01.2013 23:30
    Дмитрий Ищенко
    росто стало интересно каков сейчас разрыв между самыми медленными X86 и самыми быстрыми ARM
    Полистали бы ветку, тут не далеко, примерно до начала предидущей , по факту - в определенных задачах примерно одинакова, в неопределенных - разрыв до 10 раз в самые разные стороны.

    2729. AVY, 01.02.2013 01:27
    PapaBear
    что собсно и происходит в тяжелом коде, которому SSE - как мертвому припарки Это вы о чем? Что за код такой "тяжелый"?

    Страницы: назад · 1 2 3 5 6 7 8 9 10 11 12 13 14 15 19 20 21 · далее / все сообщения темы на одной странице


    URL: http://forum.ixbt.com/topic.cgi?id=8:23952