Aber muss man nicht Tiefgehende eingriffe in der Architektur machen wenn man aus Static-, Mixed Persission Einheiten macht da braucht man doch ganz andere Register und Chache Anbindungen oder nicht?
Hieße dass dadurch etwas Effizienz flöten gehen würde, was wahrscheinlich durch die neue Fertigung wieder mehr als ausgeglichen wirdNein. Um es einfach zu umschreiben, man muss nur den letzten Übertrag für die zweite Runde parat haben.
Es bläht die Interconnects etwas auf und bringt zusätzlichen Verwaltungsaufwand.
"Etwas" ist vor allem darauf bezogen was gerade gemacht wird. Wenn nur Single-Percision oder gar Half-Percision (FP32 bzw FP16) verwendet wird, geht natürlich Effizienz flöten, aber wenn Double-Percision (FP64) verwendet wird, steigt die Effizienz sehr deutlich (Ich rede hier wirklich von Effizienz und nicht vom Verbrauch)"etwas" kann man denk ich so stehen lassen, da alles was man macht Einfluss auf die Verlustleistung hat. Ob man es am ende Merkt ist die andere Frage, messen kann man es sicherlich.
Interessant wird es zu sehen ob es vllt. andere Penalties gibt, etwa reduzierter Maximaltakt o.ä.
Gibt halt nur immer wieder solche die die Effizienz mit dem Verbrauch gleichsetzen und dem wollte ich entgegenwirkenMir ist schleierhaft was du dann mit Effizienz meinst, wenn nicht Durchsatz pro Watt/X-Einheit.
Der Sinn ist doch, dass man keine dedizierten ALUs für bestimmte Genauigkeiten mehr braucht.
Der Durchsatz/Effizienz skaliert dann auch grob linear, ergo 2xF16 / 1xFP32 / 0.5xFP64 pro definierter Watt/Zeit Einheit.
Die Effizienz pro Bit bleibt also mehr oder weniger gleich.
Kommt darauf an wie du eine Architektur definierst und wie umfassend du das siehst.Aber muss man nicht Tiefgehende eingriffe in der Architectur machen wenn man aus Static-, Mixed Persission Einheiten macht da braucht man doch ganz andere Register und Chache anbindungen oder nicht?
Es ging um Arctic Islands vs. Pascal.pascal kommt in 16 nm, auch im mittelklasse-segment.
amd hat in der mittelklasse aktuell nur steinzeittechnologie einer veralteten gpu architektur anzubieten, die es auch nicht mit maxwell von 2014 aufnehmen kann (performanz pro watt).
einzig die fury serie ist neu und zeitgemäß. insbesondere die nano.
Der letzte Punkt hebelt den ersten aus.Also AMD hat seine Priorität bei ZEN das ist richtig, allerdings denke ich nicht dass dies sich negativ auf GCN Gen4 auswirken wird, da:
-AMD mittlerweile ihre Sparten wieder aufgeteilt hat und CPU's und GPU's getrennt von einander entwickelt werden
-Sowohl ZEN wie GCN Gen4 bereits lange in Entwicklung sind und bei einer Markteinführung 2016 eigentlich schon im groben fertig sein müssen
Ein doppelt so breites Front-End ist schon Schotter, ebenso kommen einige Transistoren vom 4K Encode/Decode dazu.Tonga ist mir für die Daten nach wie vor zu groß, 700 Mio Transistoren mehr hat als Tahiti und dann nur DCC und besseres Frontend,etc.
Natürlich ist es nicht so simpel wie dargestellt, ich wollte allerdings keinen extra Fred deswegen aufmachen und du bei zweiter Überlegung anscheinend auch nicht“Das was du wieder gelöscht hast„
Rechnen wir es doch mal durch, 1MB L2 sind in etwa 50 Mio. Transistoren(6T-SRAM).Ein doppelt so breites Front-End ist schon Schotter, ebenso kommen einige Transistoren vom 4K Encode/Decode dazu.
Man könnte auch über einen doppelt so breiten L2-Cache spekulieren.
Wobei ich nicht weiß, wie die Sache implementiert ist. Hat jeder Memory Controller seinen eigenen „Kompressor“? Wäre bei 384Bit natürlich doppelt bitter …DCC hat AMD bei Carrizo mit 0,2% Flächenkosten beziffert:
Das ganze irgendwie in Transistoren umzurechnen ist natürlich nicht machbar, aber 100 Millionen für DCC sind es definitiv nicht.
So traurig können die Umstände doch gar nicht sein, dass man 384Bit Interfaces verbaut für den Fall, das DDC nicht Funktioniert. Tonga erscheint wie aus einer anderen Welt.Der Sinn von Tonga oder die ganze Produktstrategie erschließt sich mir auch nicht bzw. es ist ein Ergebnis trauriger Umstände.
Das Tonga existiert ist natürlich verständlich, wann und wie Tonga auf den Markt gebracht wurde, leider weniger.
Da hast du bei deiner Überlegung Recht.Wobei ich nicht weiß, wie die Sache implementiert ist. Hat jeder Memory Controller seinen eigenen „Kompressor“? Wäre bei 384Bit natürlich doppelt bitter …
Wir haben aber nur einen Tahiti die-shot als Vergleich.Der Große HW-Block links neben den ALUs stört mich einfach, den gibt es weder bei Tahiti noch bei Hawaii und auf dem einzigen Fiji Die-Shot ist auch nichts zu erkennen
Prickelnd wäre es gewesen Tonga früher zu releasen und mit 3 und 6 GB Modellen Tahiti vollständig zu ersetzen.So traurig können die Umstände doch gar nicht sein, dass man 384Bit Interfaces verbaut für den Fall, das DDC nicht Funktioniert. Tonga erscheint wie aus einer anderen Welt.
Full Tonga@ 384bit mit 6GB medium Speed GDDR fänden alle vermutlich deutlich prickelnder.
Naja vmtl. will ich es einfach nur nicht wahrhaben, dass AMD mit Tonga einfach Design Fehler gemacht hat, sieht ihnen sonst gar nicht ähnlich.
Wir haben aber nur einen Tahiti die-shot als Vergleich.
Von Hawaii und Fiji haben wir leider keine Bilder.
Wenn ich das richtig sehe, sind bei Tonga die ROPs auf zwei Seiten verteilt (Links/Rechts) und nicht mehr wie bei Tahiti auf drei Seiten.
Weswegen eine Seite, eben die links, mehr Logik darstellt.
Da kommt natürlich noch etwas mehr dazu, aber dort findet sich auch der UVD/VCE und vielleicht noch irgendetwas Zerquetschtes.
Ein Design-Fehler findet sich nicht, außer man nimmt spekulativ an das die zwei Memory-Controller Rechts kaputt sind, aus welchen Gründen auch immer.
Holy Sh*t!Bei Hawaii hast du Recht, da gibt es nur Bull-Shots aber bei Fiji hat Chipworks einen veröffentlicht, leider nur Low Res.
https://www.chipworks.com/competiti...-reports/recent-reports/amd-fury-x-hynix-high
In dem Sinne ja, etwas haben, was man nicht verwendet und dann pro Chip mehr bezahlen, dass ist natürlich sub-optimal.Design Fehler im Sinne von Unnütz und daher natürlich ein Fehler, defekte IP-Blöcke wären Implementierungsfehler.
Was unter traurige Umstände fällt.Das Launch Prozedere war aus wirtschaftlicher Sicht wohl Schadensbegrenzung, da man die Tahitis noch loswerden musste.
Holy Sh*t!
Das ist in der Welt des Internets, wo ich mich meistens aufhalte, gar nicht vorgekommen.
Sehr interessant das HBM-Interface zu sehen.
Ist denn ein GPU auch in Rounds aufgeteilt wie eine CPU(Ringbus)Nein. Um es einfach zu umschreiben, man muss nur den letzten Übertrag für die zweite Runde parat haben.
Es bläht die Interconnects etwas auf und bringt zusätzlichen Verwaltungsaufwand.
Im Prinzip würde ich das Konzept(GCN(1.0,1.1,1.2),Maxwell,Volta) als Architektur sehen nur ich würde es in Low und High-Level aufteilen und alles was im Lowlevel geändert wird hätte für mich einen tieferen eingriff in die Architektur und highlevel eingriffe wären nur abwandlungen eben für verschiedene Sparten-, Leistungsklassen, anderer Chip andere Leistung aber eben das gleiche KonzeptKommt darauf an wie du eine Architektur definierst und wie umfassend du das siehst.
Ihr vergesst das Tonga/Antigua noch gegenüber GCN1.0-1 HSA implimentiert hat da kommt man schon so auf seine transistoren anzahl und ich denke nicht das das HSA interface besonders klein ausfällt1,5 MB L2-Cache - 768KB = ~ 36 Millionen Transistoren zusätzlich.
Bei UVD/VCE ist es natürlich eine gute Frage, wie viel die überhaupt kosten.
Auf jeden Fall nehmen sie schon ordentlich Platz weg (Carrizo hat natürlich noch den h265 Codec implementiert):
http://cdn.wccftech.com/wp-content/uploads/2015/08/AMD-Carrizo-APU_Video-IP.jpg
DCC hat AMD bei Carrizo mit 0,2% Flächenkosten beziffert:
http://cdn.wccftech.com/wp-content/uploads/2015/08/AMD-Carrizo-APU_Graphic-Color-Compression.jpg