Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Zitat von grabhopser
[Nein. Um es einfach zu umschreiben, man muss nur den letzten Übertrag für die >>zweite Runde<< parat haben.
Es bläht die Interconnects etwas auf und bringt zusätzlichen Verwaltungsaufwand.]

Deswegen bin ich drauf gekomen habs mal mit ">>...<<" makiert und weil mir da noch was mit Ringbus für die Anbindungen und Ring 0-3 für Ausführungsebenen bei CPUs in den Kopf gekommen sind
 
Zuletzt bearbeitet:
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Das sind zwei unabhängige Sachen.
Zweite Runde --> zweiter Rechenschritt.

Ein Ringbus ist dann ein Konzept entsprechende Ergebnisse/Daten zu anderen Spots zu befördern.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Ein Ringbus steigt und fällt mit seinem Protokoll in der Effizienz, von daher ist es ein in sich weit gefasster Begriff. Imo ist Intels Ringbus erst seit Ivy wirklich effizient, da hier auch shifting implenentiert wurde. Bei GPUs sind hier viel zu viele Fragezeichen um da weiter zu kommen. Zumal ich nicht mal glaube, dass Fiji oder Tonga einen haben. Wie kommst du denn darauf TheWolf? :what:
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Hatte ich doch oben als Zitat wegen zweite Runde --> Ring --> Ringbus

hatte grabhopser aussage nur falsch interpretiert ließ am besten mal die letzten paar Kommentare ab dem den ich Zitiert hab am besten dann verstehste wie ich drauf komme Kommentar #83 ist das was ich Zitiert hatte
 
Zuletzt bearbeitet:
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Ah, ja. Dann stand da halt Mist. Kannst uns trotzdem mitteilen. :)
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Es ging darum, welchen Aufwand es darstellt Mixed-Precision ALUs zu bauen bzw. wie tiefgreifend die Änderungen sind.
In den Korb wurden einfach nur mehrere Anbindungen geworfen, weswegen TheWolf einfach nachgefragt hat, ob auf dieser Ebene auch ein Ringbus verwendet werden kann.
Auf der Ebene sind das natürlich nur direkte Verbindungen.

Erst eine Ebene höher kann man sich erst Gedanken über Speicher-Buse machen.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Ach so. Danke für die Aufklärung. Bin deinem Link von unserem "Zuhause" hier her gefolgt. Ich dachte eingangs auch dass mixed precision mehr Änderungen benötige (register space, Anbindung selbiger und Transistorcount für die Arithmetik), aber offenbar ist es eher weniger trivial als dedizierte ALUs und die entsprechende Aufteilung.
Wobei für mich immer noch nicht klar ist wie gut es für Spieler zum Zocken ist 16-Bit weite Instruktionen nutzen zu können. :huh: Würden dann ja 2 pro Takt sein oder? 2*16, 1*32 oder 0,5*64, richtig?

Edit: Wobei letzteres doch 2*32 ist und die mögliche Datenmenge um die Hälfte reduziert, wenn ich das richtig verstanden habe.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

z.b. für kollisionserkennenungen die nicht pixel perfect sein müssen könnte man FP16 verwenden würde rechenleistung sparen
oder graßbewegung da ist es ja schnurtz ob sich das jetzt zwei pixel weiter bewegt oder nicht sieht ja eh keiner
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Ich meinte eher den Ist-Zustand. Und Grasbewegung: Doch. Pixelgenau, bitte. 2^16=65535 Zustände. Klingt erst mal ziemlich wenig für etwas das sich im Raum bewegt, aber ich habe von Spieleprogrammierung soviel Ahnung wie ne Kuh vom Rad fahren :ugly:
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Es ist ein komplexes Thema und leider gibt es wenig Bild- und Textmaterial, was einem Normalsterblichen das ganze relativ leicht erklärt und anschaulich präsentiert.

Bei der Mixed-Precision müssen die Multiplier und Adder ja jeweils so verschaltet werden, das bei 16-Bit Inputs zwei Pfade bereitstehen.
Pfad A und B für jeweils 16-Bit Operationen und A + B, falls ein 32-Bit Input berechnet wird, den Baum kann man natürlich fortführen auf 64-Bit Operationen.
Für Register muss es entsprechend auch mehrere Pfade geben, je nachdem wie die Werte gespeichert werden sollen.
Ich habe nur mitbekommen das Adder vom Flächenaufwand ungefähr linear skalieren und Multiplier quadratisch.
Das ganze im Vergleich zu dedizierten ALUs, in Sachen Platzbedarf, Stromverbrauch, mögliche Taktbarkeit, wäre interessant, dass sharing bzw. splitting von Pfaden und Verknüpfungen von den Punkten kann man auch unterschiedlich realisieren.

Gipsel, Opteron, Skysnake könnten vielleicht das ganze halbwegs begreiflich zusammenfassen und darstellen.

Bei FP16 Instruktionen liegt der Vorteil bei niedrigerem Register-Verbrauch, was heutzutage einer der größten Probleme darstellen soll.
Für einige Sachen sind FP16 schließlich auch genug.
Sebbbi (Trials Evolution Dev) meinte, dass einige Entwickler Quaternions verwenden, weil man damit den Register-Verbrauch sparen kann und FP16 Math würde dafür teils auch ausreichen, womit man noch mehr sparen würde.
Call of Duty hat das glaube ich für das Animationssystem verwendet, um Polygondellen zu reduzieren, wenn ein Charakter z.B. in die Hocke geht, dass sein Po nicht total flach ist oder wenn er die Arme eckig hält, sich keine unnatürlichen Verformen auftun etc.

Und noch einmal schöner, wenn man bei FP16 noch doppelten Durchsatz erreicht.
GCN Gen 3 unterstützt nativ FP16 und spart Register-Space, aber hat nur einfachen Durchsatz.
Der Maxwell in Tegra X, hat die ALUs so verschaltet, dass wenn jeweils gleiche Operationen drankommen, sich der Durchsatz verdoppelt.
Bei Pascal hat Nvidia das Schaubild so dargestellt, dass jeweils 2x16-Bit, 1x32-Bit und 0,5x64-Bit Durchsatz erreicht wird.

Intel hat ab Broadwell 2xFP16 Durchsatz, aber da gab es auch ein paar Einschränkungen, mit Skylake wurde das erweitert.
Welches DP-Ratio die haben, keine Ahnung.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

ich kenn mich da auch nicht so gut aus war halt ausschlussferfahren wenn bis jetzt nur single persision FP32 oder FP64 doubble persission gab. Würde FP16 ja den aufwand reduzieren.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Das hardwareseitige ist mir um einiges klarer, als die Software :ugly: Ich habe wirklich kein Plan wann man 16 Bit nutzt, wann 32 oder gar 64... Theoretisch müsste mit steigender Auflösung auch die Genauigkeit steigen, was FP16 in wenigen Jahren obsolet machen müsste, aber ich bin da sicher auf dem Holzweg.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

nicht zwangsweise du kannst zwar die Auflösung immer höher berechnen aber Dinge die du mit bloßem Auge nicht siehst kannst du ja trotzdem so berechnen lassen das sie Resoucenschonender sind weilß ja eh keiner merken würde der jetzt nicht screenshots macht(was übrigens häßliche pixelfehler und löcher in der Wand dahinter gibt) und diese auseinanderdröselt oder sich mit den Techniken auskennt
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Klingt so als wüsstest du es selbst nicht genau und damit kann ich nichts anfangen. Nicht abwertend gemeint, aber spekulieren kann jeder. Mir gehts um Daten und Fakten. Du stellst dir das vielleicht zu einfach vor.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Hab ja auch oben geschrieben das ich mich da nicht so gut auskenne. Aber im Prinziep geht es ja bei FP16 darum rechenleistung da zu sparen wo man sie nicht braucht wenn der durchsatz wie oben von Locuza beschrieben dann auch nur die hälfte von dem von FP32 beträgt so kanzt du dann 2 statt nur einer berechnung vornehmen. Oder die so gewonnene Leistung anderweitig einsetzen.

Weitere Optimierungen in Games hat zwar nichts mit FP16 oder FP32 ist zum beispiel die Auflösung von Texturen zu reduziert von Objkten/NPCs/Tieren die weit entfernt sind das spart VRAM und Rechenleistung.
Nehmen wir doch zum beispiel Fell man braucht nicht jedes haar einzeln zählen können wenn das Tier/NPC am rand des Renderingbereichs/Sichtbereichs ist weil der Bildschirm dies sowieso nicht wiedergeben könnte also wäre es schwachsinn hierfür Rechenleistung zu vergeuden.
Und so ist es auch bei FP16 und FP32 wo es keinen nuterschied machen würde kann man ja auch das entsprechend resourcenschonendere verfahren benutzen wenn man eh keinen unterschied sehen oder merken würde.

Wenn du dich für Spieleentwicklung interresierst kann ich dir nur den Kanal von letsgamedev auf youtube empfehlen der hat ein paar schöne grundlagenvideos gemacht.
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Weitere Optimierungen in Games hat zwar nichts mit FP16 oder FP32 ist zum beispiel die Auflösung von Texturen zu reduziert von Objkten/NPCs/Tieren die weit entfernt sind das spart VRAM und Rechenleistung.
Nehmen wir doch zum beispiel Fell man braucht nicht jedes haar einzeln zählen können wenn das Tier/NPC am rand des Renderingbereichs/Sichtbereichs ist weil der Bildschirm dies sowieso nicht wiedergeben könnte also wäre es schwachsinn hierfür Rechenleistung zu vergeuden.
Da gibt es noch eine viel effizientere Methode. Nennt sich "Occlusion Culling" :P
The Witcher 3: Wild Hunt - Occlusion Culling im Video erklärt
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Hab ja auch oben geschrieben das ich mich da nicht so gut auskenne. Aber im Prinziep geht es ja bei FP16 darum rechenleistung da zu sparen wo man sie nicht braucht wenn der durchsatz wie oben von Locuza beschrieben dann auch nur die hälfte von dem von FP32 beträgt so kanzt du dann 2 statt nur einer berechnung vornehmen. Oder die so gewonnene Leistung anderweitig einsetzen.

Weitere Optimierungen in Games hat zwar nichts mit FP16 oder FP32 ist zum beispiel die Auflösung von Texturen zu reduziert von Objkten/NPCs/Tieren die weit entfernt sind das spart VRAM und Rechenleistung.
Nehmen wir doch zum beispiel Fell man braucht nicht jedes haar einzeln zählen können wenn das Tier/NPC am rand des Renderingbereichs/Sichtbereichs ist weil der Bildschirm dies sowieso nicht wiedergeben könnte also wäre es schwachsinn hierfür Rechenleistung zu vergeuden.
Und so ist es auch bei FP16 und FP32 wo es keinen nuterschied machen würde kann man ja auch das entsprechend resourcenschonendere verfahren benutzen wenn man eh keinen unterschied sehen oder merken würde.

Wenn du dich für Spieleentwicklung interresierst kann ich dir nur den Kanal von letsgamedev auf youtube empfehlen der hat ein paar schöne grundlagenvideos gemacht.

Ich bin mir was Spieleengines angeht nicht ganz sicher, aber ich glaube on the fly die Präzision im Algorithmus des Codes zu ändern geht gar nicht (oder zumindest nicht ohne weiteres). Wir beide haben wohl zu unterschiedliche Vorstellungen wie das abläuft. ;)
 
AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit

Ich weiß nicht ob es schon gefragt wurde hier, aber wurde schon ein Release-Datum angekündigt?
Ich habe nämlich noch nirgends irgendwas darüber gelesen WANN die Karte kommt, nur immer diese Diskussionen ins Blaue hinein...
 
Zurück