Doch, genau das. Siehe das Zitat. Er stellt es als "(Nvidia) responding" dar.
Das ist eine Auslegungsfrage. Will man das in einer kurfristigen Perspektive sehen, dann ist es sicherlich nicht wortlich zu nehmen, denn derartige Entwicklungen nehmen Jahre in Anspruch, wie auch von nVidia explizit skizziert, die schon seit vor dem ARM-Deal an der CPU dran sind. Und nVidia hat hier zurzeit und auch im nächsten Jahr nichts anzubieten, während Intel hier schon seit langem AI-fähige CPUs anbietet und jetzt gerade offiziell eine neue Version veröffentlicht.
Legt man dagegen die Deutung langfristig aus, dann fällt es leicht das als Reaktion auf Intels Xe-Ankündigungen in 2018 zu verstehen, denn mit der Aufkündigung des Xeon Phi und der Entwicklung einer komplett neuen Architektur die vornehmlich auf HPC abzielt, war vollkommen klar, dass das für nVidia mittelfristig problematisch werden wird, denn Intel kann dann erneut alles aus einer Hand anbieten und wird seine Systemkomponenten hochgradig aufeinander abstimmen. *) An Gelsingers Außerung ist überhaupt nichts verkehrt/nachteilig auszulegen.
Wie schon erklärt geht es hier für nVidia schlicht darum ein größeres Stück vom Kuchen abzubekommen und sie können damit ein Komplettsystem bieten, das sie ihren eigenen Bedürfnissen nach auslegen können, während sie andernfalls immer darauf angewiesen sind, was Inte, AMD, IBM an Möglichkeiten bereitstellen. Neben dem gesteigerten Umsatz versprechen sie sich hiervon natürlich auch eine erhöhte Konkurrenzfähigkeit, denn die weiterreichenden Systemdesignmöglichkeiten werden sie auch benötigen, denn man kann sich an zwei Fingern ausrechnen, dass Intel bspw. hier bzgl. Sapphire Rapids SP und Xe-HPC aus den Vollen schöpfen und die Komponenten möglichst optimal aufeinander abstimmen wird. Da wird die Luft spätestens mittelfristig dünn für jemnanden, der nur eine wesentliche aber einzelne Komponente beisteuert und dementprechend geht nVidia hier den nächsten logischen Schritt.
Und Intel ist hier offensichtlich schneller, denn das "
Aurora-Design" wird schon zum Jahreswechsel vorgestellt werden, während nVidia bspw. Mitte 2022 erst mal nur erneut eine neue Datacenter-GPU **) vorstellen wird und noch ein weiteres Jahr benötigt, bevor
Grace fertig sein wird.
*) Und absehbar kann man sich ebenso an zwei Fingern ausrechnen: Warum sollten hier Intel und AMD nVidia mit ihrer x86-Plattform zukünftig übermäßig entgegenkommen? Die konkurrieren beide auf gesamter Front mit nVidia (Intel in Kürze, AMD wird aufgrund des Volumens und SW-Defizits effektiv noch länger brauchen) und dementsprechend werden die ihre eigenen Lösungen favorisieren. Der einzige Grund, warum die beiden nVidia nicht direkt "schneiden" können, ist die beträchtliche Marktverbreitung von nVidia's Hardware.
**) Hier mit hoher Wahrscheinlichkeit schon MCM-basiert, den andernfalls wäre man voraussichtlich dem Intel-Design zumindest rein gemäß der bisher technisch kolportierten Specs hoffnungslos unterlegen. (Btw, es spricht nach wie vor nichts dagegen, dass das Datacenter-MCM-Design
Hopper heißen wird.
Rund ein Jahr später könnte man Grace und Hopper zusammenführen.)
Haben die Unterschiedlichen Architekturen nicht grundverschiedene Usecases, in dem jeder irgendwo seine Stärken hat?
Eher nicht. Du kannst natürlich Standard-HPC-Software von der Stange nutzen, aber in dem Bereich und bei den Aufwand (Time is Money) kompiliert man die Software üblicherweise (hochoptimiert) selbst und auch im Bereich des Ökosystems sind ARM sowie alle anhängenden Hersteller natürlich bestrebt etwaige Lücken schnellstmöglich zu schließen.
Beispielsweise der derzeit mit deutlichem Abstand weltschnellste Supercomputer ist ein ARM-basiertes System ohne Beschleunigerkarten. Hier setzt man rein auf die Vektoreinheiten in den CPU-Kernen der Fujitsu A64FX-CPUs ("nur" 48 Kerne). Das System leistet bspw. 2,78 TFlops pro CPU, ein Wert, den voraussichtlich nicht einmal ein aktueller Epyc auf Basis von Zen3 erreichen wird, was auch der Grund sein wird, dass AMD voraussichtlich die Vektoreinheit in Zen4 verbreitern wird. (Beispielsweise die 7H12 des
Joliot-Curie Rome erreichen gerade mal 2,27 TFlops Rmax pro CPU.)
Natürlich alles unter Vorbehalt, wobei MLisDead hier zumindest bzgl. Teilen dieser Werte mit einer sehr hohen Sicherheit/Zuversicht spricht in Verbindung mit Xe-HPC:
- rd. 46 TFlops FP64 (ebenso FP32 da 1:1)
- > 1 PFlops FP16 AI-Performance
- knapp über 400 MiB Cache (exklusive RamboCache)
- 128 GiB HBM2E
- PCIe5, CXL, Unified Memory
- rd. 600 W pro Package
Mit den Eckdaten übertrifft das Design den (G)A100 bei Weitem sowohl bzgl. abbsoluter Leistung als auch bzgl. Performance/Watt. Der Aurora kombiniert 6 x Xe-HPC in einem Node.
Nimmt man hier konservativ 12 Nodes pro Schrank an, hat man bereits 3,3 PFlops FP64-HPC-Performance und 72 PFlops AI-Performance in einem einzigen Schrank. Würde man diese HPC-Leistung 1:1 in Rmax ummünzen, würde sich so ein einziger Schrank bereits direkt auf etwa Platz 93 der Top500-Liste einordnen und wäre zudem mit deutlichem Abstand effizienter als alles, was da derzeit gelistet wird. *)
(Der Aurora wird aus voraussichtlich über 200 Schränken/Cabinets bestehen.)
*) Eines der effizientesten Systeme an der Position ist der derzeit an Platz 89 geführte
Cedar, Xeon Silver kombiniert mit nVidia V100 mit 310 kW bei 3,37 PFlops Rmax.
Randbemerkung zu Xe-HPG: Hier ist zudem von
XeSS als Projektcodename als vermutlichem DLSS-Konkurrenten die Rede. Zudem, entgegen RDNA2 verfügt Xe-LP/HGP zudem über Inferencing-spezifische ISA-Bestandteile für eine zusätzliche Beschleunigung.
Zen 4 mit 96 Kernen ist nicht mehr weit. Das wird sicher ausreichend Konkurrenz sein zu Altra [Q80-33, Quicksilver, 80 Kerne bei konstanten 3,3,GHz und mit unter 250 W].
Intel will ja mit der OneAPI ein riesen Ding aufziehen, das ja auch u.a. auf AI abziehlt.
Schade nur, dass der größte Einsatzzweck von AI Überwachung ist :/
Doch, der kommt erst nächstes Jahr, so wie es sich das derzeit abzeichnet gar erst im 2HJ22.
Der 128-Kerner
Mystique (M128-30) von Ampere Computing kommt noch dieses Jahr in den Markt und das Tapeout des 5nm-Nachfolgers
Siryn hat schon in 2020 stattgefunden. Das Design ist ebenfalls für 2022 vorgesehen, d. h. da wird es erneut spannend.
Ergänzend: Das OneAPI zielt nicht speziell auf AI ab sondern generell auf das Thema Heterogeneous Computing.
Sie wollen Xilinx übernehmen, wenn alles klappt und die sind im Bereich FPGAs mit 50% Marktführer und haben sehr interessante Lösungen im Portfolio auch was das 2.5 Stacking betrifft. Sollte man sich mal anschauen was die so alles anbieten, hatte ich die letzten Tage mal gemacht und ich fand es sehr spannend!
Ergänzend: Xilinx und Intel halten hier bzgl. FPGAs den Großteil des Marktes in der Hand. Weitere, kleinere Mitspieler sind Achronix Semiconductor Corp., Altera Corporation, Cypress Semiconductor, Microsemi Corporation, Texas Instruments und bspw. Aeroflex, Inc.
Darüber hinaus sind genaue Zaheln zu exakten Marktanteilen bei FPGAs schwer zu bekommen, da diese hier gemeinhin zu kommerziellen Marktanalysen führen. Intel hatte jedoch gemäß IHS bereits in 2015 bei FPGAs rd. 37 % Marktanteil gemäß Revenue, während man zu der Zeit Xilinx 50 % zuschrieb. Mit den weiteren Ausbauten bei Intel dürfte man sich in den letzten Jahren weiter angenähert haben und mit ihren Agilex- und Stratix-Produkten dürften sie relativ konkurrenzfähig dastehen.