@geisi2/bofferbrauer:
Intel weiß sehrwohl, dass die Absatzsahlen sehr gering sein werden. Hierbei dürfte es vorwiegend um Marketing/Werbung/Brand-Awareness gehen, damit man in den nächsten Monaten nicht komplett aus der Berichterstattung verschwindet. Zudem war der Aufwand für Intel relativ gering, da die Xeon-Dies lediglich in ein neues Package mussten, während der Chipsatz beibehalten wird (wobei man für die Nutzung 48 PCIe-Lanes jedoch neue Boards braucht, denn die Plattform kam ursprünglich mit nur 44 Lanes daher).
AVX-512 ist dagegen tatsächlich eine Nische, die für Intel spricht, wenn man entsprechende Workloads hat. Int8 gehört übrigens hierzu. Das neue AVX-Subset VNNI bietet für DL/ML Int8-Operationen für das Inferencing an, die damit beträchtlich beschleunigt werden können. Die Anfang 2020 erscheinende Iteration wird zudem Bfloat16 hinzufügen. ML-Algorithmen benötigen jedoch i. d. R. auch eine hohe Speicherbandbreite, sodass hier eher Intels Xeon-W gefragt sind im Entry-Level oder gar Cascade Lake-AP. Wie bofferbrauer angerissen hat, eine Nische, aber wenn man in einer solchen arbeitet, ist das unerheblich und dann ist AMD nun einmal weniger attraktiv und der Preis sekundär. In der aktuellen Top500-Liste sind bspw. auch zwei Cascade Lake-AP-Systeme hinzugekommen. *)
Bei derart spezifischen Leistungsvergleichen ist jedoch immer darauf zu achten, dass man sinnvoll vergleicht, denn gerade der noch recht neue Zen2 hinkt hier teilweise softwaretechnisch hinterher und wird bspw. von Intels MKL benachteiligt, was Softwareentwickler berücksichtigen müssen. AMD kommt seiner eigenen Lib leider nicht aus dem Quark, da sie weiterhin deutlich weniger umfangreich ist und bspw. OpenBLAS optimiert auf Intel-CPUs längst nicht so gut wie die MKL und hat Probleme mit AVX-512.
Wenn man jedoch umfangreichen Gebrauch von AVX-512 machen kann, bietet das einen beträchtlichen Leistungsschub (obwohl die Intel-CPUs den Takt reduzieren).
Ein nicht repräsentatives Extrembeispiel ist Ian Cutress' synthetischer Benchmark einer Partikelsimulation, die er im Rahmen seines PhD. erstellte. Einmal ohne AVX und einmal mit AVX2/-512 wo möglich, steigert sich der Durchsatz hier beträchtlich:
- TR 2950X +70 %
- 3950X +84 %
- TR 3960X +88 %
- 9900K +97 %
- W-3175X +711 %
- 10980XE +762 %
Bei den letzten beiden ist zudem zu berücksichtigen, dass die als Xeon's über zwei AVX-512-FMA-Einheiten verfügen. Wenn der Workload es also zulässt, sind beträchtliche Zugewinne mögich. Beispielsweise der 7960X mit 16-Kernen hängt den TR 3970X um Faktor 2x ab trotz seiner überschaubaren 2,8 GHz Basistakt, die sich unter AVX-512 noch einmal deutlich reduzieren.
Zweifelsfrei eine Nische und mit einem weniger spezialisierten Workload fährt man aktuell besser mit AMD, sofern bspw. Support/Wartung/Zertifizierung nicht dagegen sprechen.
*) Das System am Lawrence Livermore National Laboratory bspw. verwendet 1300 Platinum 9242 zu je 48 Kernen. Das "Magma" getaufte System wird der National Nuclear Security Administration zuarbeiten. An der Site steht u. a. auch das aktuelle Top2-System Sierra und auch der vor wenigen Monaten demontierte Titan stand am LLNL.