AW: Radeon R9 380X: Powercolor bestätigt 4 GiByte an 256 Bit
Es ist ein komplexes Thema und leider gibt es wenig Bild- und Textmaterial, was einem Normalsterblichen das ganze relativ leicht erklärt und anschaulich präsentiert.
Bei der Mixed-Precision müssen die Multiplier und Adder ja jeweils so verschaltet werden, das bei 16-Bit Inputs zwei Pfade bereitstehen.
Pfad A und B für jeweils 16-Bit Operationen und A + B, falls ein 32-Bit Input berechnet wird, den Baum kann man natürlich fortführen auf 64-Bit Operationen.
Für Register muss es entsprechend auch mehrere Pfade geben, je nachdem wie die Werte gespeichert werden sollen.
Ich habe nur mitbekommen das Adder vom Flächenaufwand ungefähr linear skalieren und Multiplier quadratisch.
Das ganze im Vergleich zu dedizierten ALUs, in Sachen Platzbedarf, Stromverbrauch, mögliche Taktbarkeit, wäre interessant, dass sharing bzw. splitting von Pfaden und Verknüpfungen von den Punkten kann man auch unterschiedlich realisieren.
Gipsel, Opteron, Skysnake könnten vielleicht das ganze halbwegs begreiflich zusammenfassen und darstellen.
Bei FP16 Instruktionen liegt der Vorteil bei niedrigerem Register-Verbrauch, was heutzutage einer der größten Probleme darstellen soll.
Für einige Sachen sind FP16 schließlich auch genug.
Sebbbi (Trials Evolution Dev) meinte, dass einige Entwickler Quaternions verwenden, weil man damit den Register-Verbrauch sparen kann und FP16 Math würde dafür teils auch ausreichen, womit man noch mehr sparen würde.
Call of Duty hat das glaube ich für das Animationssystem verwendet, um Polygondellen zu reduzieren, wenn ein Charakter z.B. in die Hocke geht, dass sein Po nicht total flach ist oder wenn er die Arme eckig hält, sich keine unnatürlichen Verformen auftun etc.
Und noch einmal schöner, wenn man bei FP16 noch doppelten Durchsatz erreicht.
GCN Gen 3 unterstützt nativ FP16 und spart Register-Space, aber hat nur einfachen Durchsatz.
Der Maxwell in Tegra X, hat die ALUs so verschaltet, dass wenn jeweils gleiche Operationen drankommen, sich der Durchsatz verdoppelt.
Bei Pascal hat Nvidia das Schaubild so dargestellt, dass jeweils 2x16-Bit, 1x32-Bit und 0,5x64-Bit Durchsatz erreicht wird.
Intel hat ab Broadwell 2xFP16 Durchsatz, aber da gab es auch ein paar Einschränkungen, mit Skylake wurde das erweitert.
Welches DP-Ratio die haben, keine Ahnung.