Intels Arctic Sound: Liefern die GPUs weniger ab als erhofft?

Die Teile werden im Rack luftgekühlt.

Intel wird auch ein Preisproblem bekommen, denn auch die Entwicklungskosten muss man ja einpreisen, um nicht allzu rote Zahlen zu schreiben. Ich befürchte ATS ist bereits jetzt aufs Abstellgleis geschoben worden. Kein einziger fetter Design Win. :(
Nur in der Theorie: Intel ist nicht gezwungen mit dem ersten Produkt Gewinn zu machen. Auch nicht mit der 2. Gen.
Man kannte das von früher, als man unbedignt im Smartphonemarkt und Co fußfassen wollte und die Chips quasi verschenkt hat, damit sie genommen werden.
Erst mit einem gewissen Marktanteil ist es halt sinnvoll zu schauen, dass auch Geld reinkommt.
 
Das was Igor hier besprochen, bzw. expemplarisch heranzitiert hat, hat nichts mit Consumer-GPUs zu tun. Hierbei geht es um Xe-HP für das Datacenter, Rechenbeschleuniger, die nicht einmal über Videoausgänge verfügen.
Bereits das hier ist lediglich versuchtes Kaffeesatzlesen, da man nichts Konkretes weiß, sondern nur bruchstückhaft von Außen einen Blick darauf werfen kann und das Dargebotene irgendwie zu deuten und in einen größeren Kontext zu setzen versucht.
Und dann versucht man noch möglicherweise in einem nächsten Schritt das auch noch auf Consumer-GPUs zu übertragen? - Schlussendlich wird man hier einfach abwarten müssen, bis wirklich was Konkretes vorliegt. mit dem man auch arbeiten kann.

Igor bezieht sich zumindest bei seinen Verbrauchserwartungen auf Consumer-"Tiles" (auch wenn der angenommene Verbrauch eher auf eine ganze DG2-128-Karte passt). Aber ich kann mich auch nicht erinnern, dass Intel je bestätigt hätte, in LP, HPG und HP jeweils den gleichen internen Aufbau zu verwenden. Wenn es da gröbere Abweichungen gibt, wäre nicht nur eine Übertragung der Bewertung auf Desktop-Grafikkarten fragwürdig, sondern bereits die Bewertungsgrundlage als solche.


Ich glaube den Takt weiß er noch nicht einmal. Woran er sich störte, bzw. wovon er ableitete war, dass keines der beiden Designs einen Vollausbau zu verwenden scheint und dass die zugehörigen TDPs niedriger erscheinen als erwartet, woraus er einen voraussichtlich (deutlich?) niederigeren Takt ableitete (bis hin zu fast schon dem möglichen Ende derartiger Ambitionen).

Wobei das die erste mir bekannte Hardware wäre, die Probleme mit dem Erreichen der geplanten Taktziele hat und deswegen weniger verbraucht. Normalerweise geht die elektrische Leistung hoch, wenn man die Spannungskeule auspacken muss. Umgekehrt ist 300 W eine gängige TDP-Klasse für Beschleunigerkarten, halt genau das was mit einem zusätzlichen Stromanschluss betreiben kann und was lange Zeit das absolute erlaubte Maximum für PCI-E-Karten war, was sich entsprechend in Server-Kühldesigns niederschlägt. Und 150 W für eine HHHL-Karte sind sogar schon an der Grenze des machbaren. Im Desktop bekommt man Karten in der Größe oft nur bis 35 W, während die 75-W-Klasse in aller Regel größere Kühlkörper nutzt. Da sollte es nicht verwundern, dass man hier unter 225 W bleibt. Auch stärkere Lüfter haben nur begrenztes Potenzial, zumal sie in Racks nur indirekt/semi-aktiv drauf blasen und der hier gezeigte Kühlkörper ist in etwa so groß wie ein Pentium-III-Kühler (20-35 W). Die kleine Karte wird am thermischen Limit spezifiziert sein – ungewiss bleibt, wieviel Rechen- sie bei dieser elektrischen Leistung liefert.
 
@PCGH_Torsten: Die Basisarchitektur ist alles Xe und viele Teilkomponenten wird man sicherlich leicht in den anderen Designs wiedererkennen können, etc. aber auf der HotChips erklärten Intel auch klar, dass hier teilweise unterschiedliche Funktionseinheiten in den Subarchitkturen zum Tragen kommen (Xe scheint grundsätzlich nach dem Komponenten-/Baukastenprinzip designed zu sein). *)
Beispielsweise Xe-LP ist in 16 EUs pro SubSlice aufgeteilt, verfügt aber über keine Raytracing-Funktionalität, während man in HPG das 16er-SubSlice beibehält und eine Intersection-Engine pro SubSlice hinzugefügt (und bereits erklärte, dass man auch diesbezüglich flexibel sei und die Anzahl auch erhöhen könnte, aktuell aber dieses Verhältnis für sinnvoll erachte).

*) Die größten Unterschiede wird man wahrscheinlich zu Xe-HPC beobachten können (rein architektonisch, also unabhängig von dem physischen Aufbau als massives Foveros/EMIB-Design und unabhängig vom HBM-Speichersubsystem und dem zusätzlichen RamboCache, etc.).
LP, HPG und HP werden vermutlich deutlich ähnlicher zueinander aufgebaut sein und der grundsätzliche Aufbau einer EU hier wird vielleicht gar gleich sein?
(Beispielsweise HPC wird sicherlich über keine 3D-Funktionalität verfügen und ich könnte mir vorstellen, dass es auch keine FP32-Funktionalität geben wird, sondern dass hier reine 64-Bit-ALUs zum Tragen kommen, was zu dem Gerücht passen würde, dass FP64 und FP32 in HPC angeblich ein 1:1-Verhältnis aufweisen, d. h. FP32 wird möglicherweise nur ein Fallback sein.)

Ein weiterer möglicher und vielleicht leicht absehbarer Punkt zur Differenzierung wird die Aufteilung der regulären ALUs (bisher 8 pro EU) und der zusätzlichen zwei Ausführungspfade für höhere mathematische Funktion sein, sowie ergänzende Fixed-Function-Units (die Raytracing-Intersection-Engine ist ein Beispiel zu letzterem).
Hinzu kommt, dass bspw. das MediaSlice (De-/Encoding, Scaling/Filtering, etc.) komplett separat ist und pro 3D/ComputeSlice hinzugefügt wird (ein solches bündelt mehrere SubSlices), und ein Stream kann über mehrere MediaSlices parallel verarbeitet werden, was die hohe Leistungsfähigkeit von deren neuer Engine erklärt.
Hier kann man offensichtlich sehr flexibel aus einem Katalog an Funktionalität wählen und das Design für den Zielmarkt (in gewissen Grenzen) zusammensetzen.

Korrekt ist aber meinem Stand nach auch, dass Intel bisher öffentlich kein nennenswertes Wort über interne Details zu HPG und HP verloren hat (abgesehen davon, dass HPG eine Raytracing/Intersection-Engine als Fixed-Function-Unit pro SubSlice beitzt), d. h. hier kann man noch viel rätzelraten.
Zu HP erklärte man 512 EUs pro Tile/Chip (also 4096 ALUs/Chip; und demonstrierte werbewirksam ein 4-Tile-Design mit 42 TFlops FP32), aber meinem beschränkten Wissen nach gab es von Intel bisher keine Bestätigung, dass bspw. HPG auch als 512er-Chip designed ist, d. h. alle derartigen Äußerungen diesbezüglich scheinen reine Spekulation und Ableitungsversuche ausgehend von dem HP-Informationsbruchstück zu sein.

Bezüglich dem Verbrauch würde ich zudem annnehmen, dass von LP bis HP vermutlich eher die Fertigung als die architektonischen Unterschiede ausschlaggebend sein dürfen (von Media-Encoding-Workloads mal abgesehen, bei denen ein Großteil des Chips weitestgehend brach liegt und primär die MediaSlices gefordert werden).
LP wird intern in 10nm++ gefertig (auf RKL ebenfalls backported), für HP hat man 10nm+++ erklärt und zu HPG erklärte man explizit, dass dieses extern gefertigt werden wird.
Intel hat auch in diesem Jahr sein Auftragsvolumen bei TSMC erneut beträchtlich gesteigert und angeblich auch nennenswerte Kontingente des N6 gebucht. Gibt es bei HP vielleicht tatsächliche Yield und/oder Effizienz-Probleme aufgrund eines zu hohen Verbrauchs, muss das jedoch nicht zwingend auf (den Consumer-)HPG zutreffen. Hier wird man wohl einfach abwarten müssen.

In Tiger Lake U in 10nm++ hat die 96 EUs umfassende LP-iGPU rd. 45 mm2. Das kann man nun nicht pauschal hochrechnen, da man einerseits die architektonischen Abweichungen von HP nicht kennt und andererseits Caches und einige Fixed-Funktion-Units ggf. nicht linear mitskalieren. Zudem müsste man für so einen Chip noch Speichercontroller und PCIe aufschlagen. Grob überschlagen würde ich dennoch davon ausgehen, dass ein 512er-Tile vielleicht bei irgendwo um die 280 mm2 liegen würde, was noch durchaus nach einer handhabbaren Größe aussieht (insbesondere wenn man bedenkt, dass das Ice Lake SP-XCC mehr als doppelt so groß ist).
Ob man hier größere Yield-Probleme annehmen darf, weiß ich nicht so recht, denn immerhin verwendet das 2T-Design ja 480 von 512 EUs pro Tile, d. h. von 32 SubSlices sind gerade mal zwei zwecks einer Yield-Optimierung deaktiviert (zumal man ja in der Fertigung 100%-einwandfreie Tiles vorerst auch sammeln und zu einem späteren Zeitpuntk als weiteres Produkt/dem Vollausbau anbieten könnte; wenn diese in ausreichender Stückzahl anfallen würden und das Marktinteresse gegeben wäre).
Den Takt kann ich mangels Verbrauchsvergleichswerten nicht wirklich abschätzen, würde aber davon ausgehen, dass der eher im niedrigeren 1 GHz-Bereich liegt als am oberen Ende Richtung 2 GHz. Schlussendlich, wenn man das "will keiner haben" im Hinterkopf hat, muss es ja einen Grund geben und hier könnte einmal die dargebotene Rohleistung nicht ausreichend hoch i. V. z. Konkurrenz sein oder ein anderer technischer Aspekt?
Es könnte aber auch sein, dass das OneAPI nicht überzeugen kann, bspw. dessen Anwendung derzeit vielleicht unnötig kompliziert ist oder im einfacheren Fall die Umgewöhnung von gängigen APIs und Libs wie bspw. CUDA schlicht unnötig aufwändig ist (zumal, wenn man damit möglicherweise keinen nennenswerten Mehrwert generieren kann)?

Und ja, 300 W sehen durchaus nach einem typischen Zielwert aus rein bzgl. des Verbrauches/der Abwärme. Die großen Karten von nVidia und AMD sind auf einen vergleichbaren Zielwert hin ausgerichtet. (Lediglich mit ihren SXM-Designs geht nVidia hier über 300 W hinaus.) Die Frage ist am Ende natürlich, was eine solche HP-Karte dann faktisch bei 300 W tatsächlich an Leistung abliefert?

Für LP gibt Intel offiziell 256 Flops/SubSlice/Clock an. Die zu HP geteaserten 10,6 GFlops FP32 für ein Tile (bei von mir angenommenem Vollausbau und vergleichbarer/übertragener Rechenleistung) würde also auf einen angenommenen/implizit geteaserten Takt von etwa 1,3 GHz zurückschließen lassen. Entsprechend könnte man nun bzgl. Peak-FP32 und der konkreten Produkte hochrechnen:
1T-384:
  • 1,1 GHz ~ 6,8 TFlops
  • 1,2 GHz ~ 7,4 TFlops
  • 1,3 GHz ~ 8,0 TFlops
  • 1,4 GHz ~ 8,6 TFlops
  • 1,5 GHz ~ 9,2 TFlops
2T-480:
  • 1,1 GHz ~ 16,9 TFlops
  • 1,2 GHz ~ 18,4 TFlops
  • 1,3 GHz ~ 20,0 TFlops
  • 1,4 GHz ~ 21,5 TFlops
  • 1,5 GHz ~ 23,0 TFlops
Die Frage ist hier dann welcher effektive Takt zu dem in den geleakten Dokumenten angegebenen Verbrauch (150 W respektive 300 W) gehört?
Ein Problem wird aber gleich offensichtlich, wenn Intel hier tatsächlich nur vergleichsweise niedrige Taktraten realisieren kann, denn bereits eine alte Quadro RTX 6000 erreichte bei um die 260 W rund 16,3 TFlops und Ampere spielt aufgrund seiner überarbeiteten Architektur noch einmal in einer anderen Liga, bspw. als Nvidia A6000 mit nun 300 W, dafür aber auch 38,7 TFlops Peak-FP32-Performance. Selbst wenn man dem neuesten nVidia-Design absprechen wollen würde, dass die zusätzliche FP32-Einheit vollumfänglich genutzt werden können und man nur effektive 75 % anrechnet, müsste Intels 2T-Design schon einen recht hohen Takt haben, um da mithalten zu können (oder aber man müsste das Design deutlich preisgünstiger anbieten, wird dann aber immer noch damit kämpfen müssen, dass man potentielle Kunden damit auch zu einem Wechsel des SW-Stacks zwingt).

Beispielsweise mit der theoretischen Peak-Performance einer A6000 könnte ein HP-2T-Design im Vollausbau mit den angenommenen Durchsatzwerten (auf Basis von LP *) erst bei 2,35 GHz gleichziehen.

*) Das ist natürlich ein Unsicherheitsfaktor. Vielleicht ist HP doch deutlich anders aufgebaut? Dennoch stehen aber bisher nur geteaserte 10,6 TFlops für ein einzelnes HP-Tile im Raum und hier hat man damals nicht explizit darauf hingewiesen, dass das nur ein ES-Chip ist, der mit deutlich niedrigerem Takt läuft, sondern man hat damals stattdessen die Aufmerksamkeit auf die Skalierbarkeit gelegt, indem man bis zu vier Tiles per EMIB verbinden kann.

Aber ohne mal zumindest einige handfeste Details ist das weiterhin viel Stochern im Nebel. ;-) Am Ende wird bei Xe-HP vermutlich der Durchsatz nicht konkurrenzfähig sein und es kommen noch Fragen hinzu wie teuer das Produkt in der Fertigung ist (was den Spielraum bei der UVP bestimmt) und wie der damit einhergehende Wechsel des SW-Stack bei den Kunden zu bewerten ist.

Igors Aussagen wie "ArcticSound/HP ist ein kompletter Fail" und "das sind fertige Produkte, die nur keiner will", sind natürlich schon eine Hausnummer. Am Ende kann man ihn aktuell nur beim Wort nehmen und auf sein Urteilsvermögen vertrauen (oder es halt lassen) und ebenso darauf hoffen, dass er hier einigermaßen objektiv bei seiner Bewertung und Informationsweitergabe vorgeht (jedoch hatte ich bisher nicht den Eindruck, dass er da einem nennenswerten Bias erlegen ist; da würden mir eher ein paar andere Pressevertreter einfallen, denen ich eher zweifelhafte Absichten bei derartigen Aussagen unterstellen würde).
Am Ende scheint sich eine Vermarktung aber in der Form tatsächlich problematisch zu gestalten. Zwar hat man keine offiziellen Details, aber man weiß zumindest von der Existenz eines 2T-480-Designs, dem 300 W zugeordnet sind und das im besten Fall über den damals geteaserten 21,2 TFlops Peak-FP32 liegen könnte, aber sicherlich nicht weit, wenn man berücksichtigt, dass Intel damals den Vollausbau präsentierte und vermutlich mit um die 1,3 GHz und wenn man berücksichtigt, wie viele Hundert MHz mehr man noch benötigen würde (s. o.), wenn man mit dem GA102-Vollausbau gleichziehen wollte (derzeit um die 4500 US$ mit 48 GiB).

Und was das alles am Ende für Xe-HPG, also Consumer-Enthusiast-GPUs bedeutet, wird man abwarten müssen. Xe-LP in Tiger Lake schlägt sich relativ gut, die HPG-Architektur wird sich primär um das ursprüngliche Aufgabengebiet drehen: 3D-Grafik ... und zudem werden diese Chips in einem externen Node gefertigt, der möglicherweise noch höhere Taktraten erlaubt und effizienter ist und hier könnte zudem der SW-Stack eher weniger ein Hindernis darstellen. Selbst wenn Xe-HP einen stillen und einsamen Tod gestorben sein sollte, muss das noch nicht zwangsweise auch für HPG zutreffen und vielleicht kann man immer noch auf Alternativprodukte im LowEnd- bis MidRange-Segment hoffen?

Und bevor der Tränenfluss und Abschiedsgesang zu überwältigend wird ... vielleicht darf man doch noch auf einen anderen oder weiteren Player im Consumer-Markt in Form von Imagination Technologies Ltd. hoffen. Deren kommende C-Series ist ein MCM-Design mit Raytracing-Funktionalität und bei deren allgemeinen Absatzproblemen im Mobilmarkt könnte ich mir durchaus vorstellen, dass man es zumindest im Geiste durchspielt, das eigene Design auf den PC zu bringen, um so sinkende Absatzzahlen zu kompensieren. Aber wie so oft ... die Hoffnung stirbt zuletzt. ;-)
 
Zuletzt bearbeitet:
Ist halt die Frage, ob sie es eher in Fertig-PCs packen lassen oder auf den freien Markt werfen, wo Intel bisher nicht für GPUs bekannt ist.
Weiss nicht, würde sogar sagen, dass Intel am meisten GPUs auf dem Markt hat.
Und hin und wieder in der Vergangenheit haben Sie schon Ihre GPUs angekündigt, waren einfach alle integriert und schlicht misst.
Performance aber vorallem die Treiber.

Darum können Sie mich garnicht entäuschen, ich erwarte nur noch Pleiten vonenen.
Wohl eher kommt garnichts, so wie auch der Raytracing Beschleuniger nie auf den Markt kam. Damals noch weit vor RTX angekündigt.
 
Zurück