Müssen denn solche speziellen Cores (Tenor Cores) die speziell für INT4 / INT8 ausgelegt sind in der GPU sitzen?
Könnte man solche Recheneinheiten nicht auch in zukünftige CPU's einbinden oder ist das technisch nicht sinnvoll?
Für umfangreiche Berechnungen werden viele parallele Rechenkerne benötigt und gleichzeitig ist eine hohe Speicherbandbreite erforderlich. Für ein paar kleinere Szenarien könnte man das auch auf eine CPU packen (siehe Intels
DL Boost via VNNI und bald auch zusätzlich mittels AMX), für auch nur etwas umfangreichere Anwendungen ist das auf jeden Fall besser auf etwas wie einer GPU aufgehoben.
Darüber hinaus sind nVidia's Tensor Cores v3 weitaus funktionsreicher, denn hier werden Matrixoperationen mit diversen Datentypen unterstützt, konkret INT4, INT8, FP16, bfloat16, TF32, FP32 und sogar FP64.
DP4A unterstützen GPUs schon allgemein länger, Intel hat hier jedoch besonderen Wert auf zusätzliche "Verdrahtungen" gelegt, sodass derartige Operationen etwas schneller in den Shadern berechnet werden können, auch wenn es sich sich dabei dennoch nicht um spezialisierte/dedizierte HW-Einheiten handelt.
Man darf vermuten, dass AMD mit RDNA3 diesem Weg folgen wird als Minimallösung, falls man nicht gar doch noch dedizierte Matrixeinheiten implementieren wird. Ich würde aber vermuten die Wahrscheinlichkeit für erstere Variante dürfte höher sein. Letzteres dürfte man wohl eher zuerst bei einem neuen CDNA-Design zu Gesicht bekommen.
Wie gausmath oben jedoch schon anmerkte, sind derartige Funktionalitäten, jedoch nur ein Teil der Geschichte, denn entsprechende Matrixoperationen zur Prozessierung des NNs (das Inferencing) werden nur einen Teil des Algorithmus ausmachen. Wie hoch der genau ist, lässt sich im Detail jedoch nicht genau beziffern. Man weiß nur, dass erste DLSS2-Betas von nVidia noch rein über die Shader-Kerne implementiert wurden (wurde hier damals mit einem id-Titel demonstriert), d. h. das geht selbstredend auch, dürfte nur ein wenig Performance kosten, vermutlich aber keinen allzu großen Unterschied ausmachen.
Schlussendlich hat man mit FSR dennoch eine passable Lösung zur Hand, insbesondere, wenn man keine nVidia-HW besitzt. Mit XeSS dürften halbwegs aktuelle Radeon's vermutlich auch noch bald in den Genuss einer qualitativ etwas höherwertigen Lösung kommen und als Besitzer von halbwegs aktueller nVidia HW (>= 3Q18) befindet man sich in der komfortablen Lage, dass man nach eigenem Gusto alle drei Techniken verwenden und bei gegebener Möglichkeit in einem Titel gar frei wählen kann.
Darüber hinaus kommen ja auch noch weitere alternative Techniken wie bspw. die der UE5 hinzu, d. h. kein Grund sich hier unnötig graue Haare wachsen zu lassen. Bspw. insbesonders letztgenannte dürfte wohl zuweilen verstärkt dafür sorgen, dass bspw. auch auf den Konsolen FSR wohl weniger verwendet werden wird, als vielleicht so mancher gemeinhin vermuten mag, denn dass Epic hier einfach ins Blaue hin sein TSR entwickelt haben wird, ist eher unwahrscheinlich, zumal die UE5 explizit mit Blick auf die aktuelle Konsolengeneration hin entwicklet wurde.