Nvidia Geforce: Nächster Flaggschiff-Chip AD102 angeblich mit deutlich mehr Shadern

Auf dem PC gibt es Gran Turismo ? Oder Ghost of Tsushima ? God of War Trilogie ? Wusste ich gar nicht, vielleicht will ich mich einfach nur dran setzen und nicht stundenlang mit den Effekten in z.B. Cyberpunk spielen bis das Spiel funktioniert, mit dem Game Pass kann ich auf der PS5 auch ältere PS Only Titel anzocken, für weniger Geld als am PC.
Der PC kommt auch ohne diese Titel wunderbar aus. Klar kannst du an der Konsole kurzfristig "billiger" zocken aber das wirkt sich eben auch auf die Qualität aus. Ich persönlich verbringe viel Zeit damit zu spielen und dann will ich nicht in weniger als 1080p mit 30fps rumdümpeln sondern echte Qualität erleben.

Das mit den günstigeren Spielen durch den Game Pass halte ich für eine nicht haltbare These.
 
[...] (genau wie dedizierte Tensors und Raytracer) - technisch gesehen sind die Tensoreinheiten ja auch nur Integereinheiten die auf INT8 spezialisiert sind. [...]
Die Aussage ist falsch. Die Tensor Cores sind weitaus mehr auf Fließkommaberechnungen als auf Integerberechnungen ausgelegt. *) Vorrangig unterstützen diese Einheiten FP16, FP32, FP64, bfloat16 und TF32, alles Float-Datenformate. Darüber hinaus gibt es für den deutlich kleineren Anwendungsfall, der mit einer weitaus geringeren Präzision auskommt, auch noch Unterstützung für INT8 und INT4.
Abseits dessen, FP16-Operationen werden in Turing bspw. grundsätzlich über die Tensor Cores berechnet und nicht über die normalen ALUs. Den kleineren Turing's, denen man die Tensor Cores v2 gestrichen hat, musste man daher extra dedizierte FP16-Einheiten mitgeben (die jedoch aufgrund des geringeren Platzbedarfs immer noch ihren Zweck erfüllten mit Blick auf die Streichung). Anzunehmenderweise operiert Ampere hier ähnlich.

*) Bspw. die Tensor Cores v1 in Volta waren noch ausschließlich auf FP-Operationen ausgelegt. Erst Turing fügte eine INT8/INT4-Unterstützung hinzu. (Diese Datenformate sind jedoch ausschließlich für das Inferencing zu gebrauchen.)

[...] Ansonsten klingen die Zahlen ja sehr beeindruckend.
Aber auch vorhersehbar. nVidia implementiert bereits auf dem GA100 8192 echte Shader/CUDA-Cores. Mit 5 nm, egal ob von Samsung oder TSMC ist da absehbar natürlich noch mehr möglich. Ob dieser vermeintliche Leak am Ende zutreffen wird, wird man jedoch abwarten müssen. Bis 2022 ist es noch ein Weilchen hin. ;-)
 
Zuletzt bearbeitet:
Ich weiß dass die mehr können als nur INT8 (wobei manches was du nennst nur die HPC-Karten können).
Allerdings wären in Spielen noch nötigen Integerberechnungen über genau diese Funktionalität wahrscheinlich weitestgehend zu erschlagen wenn mans entsprechend auslegt/optimiert, denn die INT8/INT4-Rohleistung der Tensorcores ist ja gewaltig (auch wenn sich das ggf. schnell relativiert da man die 16/32er Befehle aufteilen müsste).

Wie gesagt das war nur ein Gedankenspiel wenn man ohnehin so hart auf FP32-Shadereinheiten geht dass der INT-"Ballast" ggf auf (dahingehend evtl. etwas umgebaute) Tensoreinheiten auslagern könnte.
Vielleicht funktioniert das Konzept aber auch aufgrund der "Nähe" nicht wenn FP und INT-Berechnungen lokal am gleichen L1/L2-Cache hängen und ein auslagern eine latenztechnische Katastrophe wäre. So detailliert weiß ich das nicht aber dafür hat NV ja schlaue Leute.^^
 
Das war schon bei Turing so. FP16 auf ein FP32-Acc wurde auch hier grundsätzlich unterstützt. Das einzige, was nVidia machte war, dass die den FP16/FP32-Durchsatz auf den Consumer-Modellen per Strap auf den halben Durchsatz beschränkten. Eine Titan RTX erreicht FP16/FP32 130 TFlops, eine in der Theorie unwesentlich langsamere RTX 2080 Ti nur 57 TFlops FP16/FP32-Durchsatz. Wer FP32 fürs Training braucht soll halt zu den höherwertigen Produkten greifen, also zu der Titan oder den Quadro's. ;-) (In FP16/FP16 sind beide Karten dagegen nahezu gleich schnell.)

Neu hinzugekommen bei den Tensor Cores v3 in Ampere ist FP64-Support (vorrangig für HPC, könnte auf Consumer-Karten per Strap ggf. auch abgeschaltet oder durchsdatztechnisch beschränkt sein, hier fehlen mir Infos). Zu diesem Zweck wurden die Matrizen verbreitert und nVidia hat seine Libs zeitnah erweitert um diese Funktionalität leicht zugänglich zu machen, d. h. wenn HPC-Workloads davon (auch nur teilweise) einen Nutzen ziehen können, gibt es hier noch Potential für beträchtliche Leistungszugewinne. Weiterhin hinzu kamen mit v3 bfloat16 und TF32. (TF32 soll eine in etwa vergleichbare Genauigkeit bzgl. dem Training von NNs bieten wie mit FP32, jedoch eine deutlich höhere Performance auf Ampere bieten. Beispielsweise Intel's neuere Agilex-FPGAs unterstützen mit FP19 ein zu TF32 ähnliches Datenformat.)

@Incredible Alk: Auf die spekulativen Weiterentwicklungsideen bin ich auch nicht eingegangen. Mir ging es nur um den Punkt, der Tensor Cores als Int-Einheiten darstellte. ;-) (Wie gesagt, die erste Implementation in Volta konnte gar überhaupt keine Integer-Typen verarbeiten.)
Darüber hinaus, INT-Ops müssen direkt im Shader verbleiben, da hierzu auch Registervergleiche und Bit- und Adressregistermanipulationen zählen, die mit gewisser Regelmäßigkeit immer wieder gebraucht werden. nVidia hat hierzu mal eine Statistik einiger aktuellerer Titel veröffentlicht, gemäß der der Anteil FP32:INT32 bei (abhängig von der Engine und vom konkreten Titel) etwa 5:1 bis 3:1 liegt.
 
Zuletzt bearbeitet:
ASUS crosshair mobos waren schon immer mindestens 2 GEN den CPU voraus. deine x370 kann technisch sowohl PCIe4, SAM, 5950x max OC spielend.. die einzige einschränkung sollten fehlende lanes für die 2te NVME sein ohne der GPU welche zu klauen. leider haut AMD mit künstlichen verboten nur so um sich. du sollst ja auch schließlich für jede GEN eine neue mobo kaufen... mach das nicht. warte wenigstens bis AM5.. unterstütze das verachtenswerte verhalten nicht zusätzlich....

Ich weiß du hast Grundsätzlich recht.
Das Problem ist die von dir angesprochene, künstliche beschneidung. Seit dem 3900X habe ich vereinzelt Start Probleme. Entweder das er ins Bios Startet oder eben garnicht und das sogar wenn das System Stock läuft( aber dann weniger).

Die Wahrscheinlichkeit das ich einen 5950X auf diesem Board zum laufen bekomme ist leider durch AMD gewollt sehr klein. Ich habe mir 2017 überlegt; wollte eigentlich wie von dir geraten dieses Board bis zum Letzten AM4 Nutzen. Ganz blauäugig;) habe ich aus AMDs damaliger Aussage natürlich, das mir Liebste Argument rausgepickt und in Meine eigene Wahrheit verwandelt.

Wenn nur mal endlich jemand Ryzen 5000 wirklich lauffähig auf X370 Testet^^ Machbar ist es doch ja:(
 
8K wird für Desktop-PC-Monitore wahrscheinlich vor 2030 überhaupt keine großartige Rolle im Mainstream spielen.

Da wirst du dich vermutlich irren. Es gibt jetzt schon 8K Fernseher für unter 1000€, wenn die ersten Monitore unterhalb diesem Preis angeboten werden, dann kommt auch beim PC Bewegung in die Sache. Ich schätze 2025 werden die Monitore so billig sein, dass sie bei den Neukäufen die größte Gruppe stellen. Ab dann wird 4 etwas für Leute, die es entweder extrem billig oder sehr schnell (240+ Hz) haben wollen.

Außerdem, welche Grafikkarten sollen das befeuern? Mit DLSS vielleicht...

Gefühlt 95% der Vorteile von 4K habe ich außerhalb von Spielen. Bildbearbeitung, Webseiten, digitale Dokumente, dann kann ich die hohe Auflösung voll ausspielen.
 
Ich schätze 2025 werden die Monitore so billig sein, dass sie bei den Neukäufen die größte Gruppe stellen.

Bis dahin gibt's vielleicht auch mal 4k GPUs.
3080/90 sind für mich zu langsam für 4k.

Wenn das Tempo des Fortschritts ähnlich weiter geht, könnte es eine 5080 zum ersten Mal hin kriegen, für mich genug Power für 4k zu haben.

Passt gut, denn 2025 will ich eh n komplett neues System, inkl. Basis+Monitor.
Dann werd' ich vielleicht auch zu 4k wechseln.
Mal schaun.

Oder ich wart noch bis 2030. :D
 
Bis dahin gibt's vielleicht auch mal 4k GPUs.
3080/90 sind für mich zu langsam für 4k.

Alles eine Frage des Anspruchs. Selbst meine GTX 670 2GB bekommt noch einige Spiele in 4K hin. Wenn du natürlich in absolut allen Spiel auf 4K6@Ultra bestehst, dann wist du wohl noch eine Weile warten müssen oder eventuell nie glücklich werden.
 
Angeblich soll die RTX-4000-Serie den Codenamen Lovelace tragen, in 5 nm gefertigt werden und irgendwann 2022 in den Handel kommen.
Das hat mich ehrlich gesagt umgehauen. Damit ist sie unterhalb der UVP heute schon exakt gleich gut erhältlich wie solche aus der 3000er Serie oder sogar auch nur wie z.B. eine 2060Super.
Und auch viele ähnliche AMD Modelle bekanntlich.

Keine Ahnung wie die beiden das mittlerweile hinbekommen, aber das grenzt schon fast an Zauberei.
 
Die Auflösung erhöht lediglich die pixelmenge die berechnet werden muss und je komplexer die polygon Struktur desto datenintensiver wird es wo dann speicherbandbreite und transferrate limitieren
Dann kommt hinzu das der shading Berechnung pixel vertex und Effekte durch die höhere polygondichte auch zunimmt und die Berechnung langsamer wird.
auch einfach weniger fps genannt.
Dies kann man nicht mehr rohe Gewalt auffangen den hier kommt es zum problem
je höher die strukturdichte und komplexer die Effekte desto mehr Zeichenbefehle (drawcalls) müssen von der cpu angefordert werden.
Das hat grenzen da dies immer ein singlethreadbefehl seitens directx ist
Dies hat man mit einen service thread aufgeteilt damit diese drawcalls als Paket auf der cpu bei den kernen parallelisiert werden kann. (command list ab directx10)
Maßgeblich aber ist der maximale takt. Und ewig lassen sich drawcalls nicht aufteilen.
Daher nimmt die multicore Auslastung auch ab und man ist auf eine hohen takt eines Kernes angewiesen. Auch deswegen da dieser alle threads der drawcalls addieren muss.
Die gpu kann nur die daten verarbeiten die stur schon geladen wurden und berechnete position von der cpu und je kleinteiliger das wird desto höher die drawcalls.
Grobe Blöcke sind kein problem und wenn das auch noch starre Oberflächen sind noch besser
Nur bringt das in Sachen Grafik nix wenn ich nen 720p Inhalt auf 2160p strecke
Detaillierter wird da nix.
Es gibt nen unterschied zwischen 2160p nativ berechnet, was derzeit kein spiel macht oder 720p intern berechnet ausgegeben in 2160p
Der Vorteil das man Spielintern kleiner rechnet ist das kein interpolarisiertes Bild gibt sondern nativ nur eben ist dann die Optik allgemein etwas grob.
Und Tapete die einen vorgaukelt mehr details zu haben ist dann steril also nicht dynamisch berechnet und nicht begehbar. quasi Kulisse.
In first oder third person games kommt die Immersion vom detailgrad in fern und nähe vom Sichtfeld .
In 2d oder auch top down Sicht kann man deutlich mehr Tapete realisieren die keine Leistung braucht.
Hier limitiert der Simulation Faktor der npc aber das ist eine andere Geschichte.
Also von 4k zu reden und zu meinen das wäre die optimale Grafik der hat keine Ahnung wie die Grafik erstellt wird.
Und das man quasi von texturbittiefe sowie polygondichte mit der vram ram budget abhängt.
Und das ist engine sowie directx/opengl /vulkan abhängig.
Da hat die endgültige Ausgabe nur bedingt was mit bester Optik zu tun den dieser Effekt kommt vom monitor.
Höhere dpi wirken sich auf die Bildschärfe aus. Ist wie mit TV und Konsole
man meint es liefe da gut real sind es nur 30fps, nur weil das tv aber 200hz interpoliert darstellt kommt es einen flüssiger vor.

Daher sehe ich 4k als künftigen schritt bei dgpu nicht eher wird man 1440p festigen als untere grenze
Und das als design Ausgangspunkt
Den games werden auf eine End Auflösung hin designet die auf Konsole am besten dargestellt werden kann
PC exklusiv sind die ausnahmen
Im übrigen beziehe sich die 1440p designet auf texturbittiefe und Bildschirminhalt also pixeldichte (dpi)
Egal welche Auflösung der monitor hat.
Für 1080p ändert sich dadurch das man mehr vram braucht und ein schärferes Bild bekommt da spielintern downsampling gemacht wird vom design aus.
ich tendiere immer zu sagen bittiefe pro dpi bsp
512bit bei 1080p 96dpi derzeit standard
1024bit bei 1080p 96dpi = doppelte Genauigkeit und schärfe
Ausgenommen sind die polygondichte den diese ist quasi geheim und auch immer vom charactermodell und leveldesign abhängig.
Daher lasse ich das komplett aus und konzentriere mich auf die vram Belegung und schärfere Texturen. Was defacto die bittiefe (Auflösung) ist
Hier gilt je mehr desto besser. Und weil das komplett nur vram/ ram bedeutet und keine Grafikleistung ist, ist das die einfachste Lösung ein schöneres Spiel zu kreieren.
Für die Grafiker macht es kein unterschied ob die Texturen in 4096bit oder 256bit konvertiert werden
Alles hängt quasi von vram ram sowie transferrate ab
Und da man industrieweit auf Konsole hin designet erlebt man Grafik Sprünge immer dann wenn neue Konsolen kommen.
Das war mal anders da gab es Grafiksprünge je directx version und dgpu gen. Das ging im schlimmstenfalls alle 3 Monate so (90er Jahre).
 
und für alte Spiele die viel Integer nutzen sind diese Karten sowieso viel schneller als nötig)
Heist das die alten games verwenden nur das überwiegend. Welche davon verwenden z. B so viele int Leistung, wie heute ja kaum noch ein neues game sie verwendet. Das würde mich mal interessieren.
Und vorallem von wie alten games sprechen wir denn da davon.
Games von 2012 oder von welchen aus dem Jahre 2008- 2009 und älter? Und wird die integer Leistung also das mit ganzahlen echt bei den neueren gpus immer weniger Einheiten? Etwa bei der ganzen rtx 3000 Serie oder auch schon bei rtx 2000 der Fall? Könnte man nicht einfach fp Einheiten zum emulieren der int Einheiten also ganzzahlen.sprich 2 oder 3 fp Einheiten berechnen int Aufgaben. Oder ist die gpu Entwicklung darin noch nicht so flexible um das zu bewerkstelligen? In dem Fall müsste man halt nen flexible Einheit Entwickeln die alle Befehle gleichmäßig berechnen können so wie es halt die damaligen gtx 8800 es getan hatte. Einfach nur noch Einheiten verwenden die flixible int32, int16, int8, int4, wie qufu fp32, fp16, fp8 usw alles aufeinmal aufführen könnte. Dann müsste man dann ja auch diese doofen Aufteilung nicht mehr machen. Man würde dann ne flexible gpu entwickeln. Damit wäre diese dann auf jede Anforderung bereit die man ihr so vor die Füße legen würde. Es ist allerdings interessant wie klein bzw ungenauet man agieren kann ohne das die Optik oder Leistung darunter leiden kann bzw leisten tut. Mir gefällt die Entwicklung sehr gut. Nur einer wie ich wird dennoch noch immer int Leistung brauchen, da ich ja ein paar games aus dem 2009, dann zwei aus 2008 und eines aus 2012 habe. Der Rest ist noch älter. Bin gespannt ob ich da dann wirklich durch z. B ner rtx 3050 mehr fps, wenn ja wieviel wohl mehr als ne gtx 1060 haben werden. Mit etwas Glück kommt villeicht noch ne rtx 3040,diese wäre dann nur minimal schlechter als ne gtx 1060, verbraucht dafür aber kaum noch Strom und ist kühl ohne Ende. Nun ja bin gespannt was du dazu so alles schreiben wirst.
Mich interessiert es alles sehr und man merkt das du dich wirklich gut auskennst. Ich weis es halt leider nicht so genau. Das werde ich dank dir dann auch mehr wissen.
 
Das heißt also aus geschrien Nearest neighbor search, ist das denn so korrekt und das wird ja nur für Maschine learning gebraucht. Also nix interessantes fürs reine Gaming. [...]
Etwas zu kompliziert gedacht ;-) "NNs" hier als einfache Abkürzung für den Plural von "Neuronales Netzwerk" als simplifizierender Oberbegriff ... und in dem Falle durchaus relevant fürs Gaming. DLSS und später auch AMDs/MS'-Pendant verwenden ein solches fürs Upscaling und zur Rekonstruktion von Details und ebenso ist auch denkbar derartiges für andere Aufgaben in einer Game-Engine zu nutzen, bspw. zur Steuerung von NPCs, etc.

Darüber hinaus: TF32 ist keine "Einheit", sondern ein optimiertes Datenformat, das fürs ML eine hohe Präzision und eine hohe Verarbeitungsgeschwindigkeit ermöglichen soll (vorrangig jedoch fürs Training relevant sein wird).

 
Zuletzt bearbeitet:
Kimi hatte bisher schon oft recht.
Ansonsten würde ich die 70% gleich als fake einstufen.

Er schreibt ja auch ein mayby dazu.

Cool wäre es dennoch so einen Schritt zu gehen. Was ich mir vorstellen kann, dass man auch wieder auf 350 tdp setzt und eben vielleicht nicht ganz 70% Mehrleistung rausholen kann mit dem 5nm.

TSMC wäre auch nice.
Verfügbarkeit lässt sich gar nicht einschätzen. Ohne Konsolen und Besserung der Lieferketten durchaus eine Hoffnung da.

Vor 2022 kann ich mir nicht vorstellen.
Wenn ich einen Tipp angeben dürfte Ende q1 2022.


Grüße
Nicht nur oft, sondern bei Ampere in absolut kedem Detail. Der Typ ist 100% Nvidia nahe oder wahrscheinlich sogar Insider. Er wusste das Ampere Lineuo schon im Mai 2019- also eineinhslb Jahre vor Release. Das zeigt auch so einiges über die Dauer die so ein Design zwischen Abschluss der grundlegenden Daten (nicht Chiptakt, der wird am Ende festgelegt) und Markteinführung benötigt. Bei AMD und Nvidia weiß man also schon fast 2 Jahre vorher wie das Lineup aussieht. Jetzt wird 1,5-2 Jahre lang simuliert, getestet etc. Aber nichts mehr an der Chipkonfiguration geändert.
Somit ist auch klar, dass AMD mit Navi 3 fertig ist (und noch intensiv den Nachfolger entwickelt) der ja als Gegenstück zu Nvidias 5nm geplant wird.
Für mich wesentlich spannender ist aber, wie schnell die 3nm GAA Designs werden, bzw wie effizient. Da reden wir aber von frühestens 2024 eher 26
 
Heist das die alten games verwenden nur das überwiegend. Welche davon verwenden z. B so viele int Leistung, wie heute ja kaum noch ein neues game sie verwendet. Das würde mich mal interessieren.
Sagen wir mal so: FP32 brauchste für alle möglichen Arten von Shadern, Beleuchtung/Verschattung/AmbientOcclusion/ScreenSpaceReflecion, irgendwelche Filter, (klassisches) Antialiasing und so weiter und so fort. Halt all das, was moderne Spiele grafisch so auffahren um möglichst hübsch zu werden.
Integerleistung ist übertrieben ausgedrückt Dreiecke zeichnen und Textur draufpappen (ok, das machen heute TMUs) und Cullen was sichtbar ist und was nicht. "alte" Spiele sind hier also nicht vor 5-10 Jahre sondern ALTE Spiele. Half-Life und Unreal. Kannste dich noch an Zeiten erinnern wo man bei Grafikkarten statt irgendwelchen Flops noch "Füllraten" angegeben hatte? SO alt. :haha:

Es gibt auch sehr viel wo ein Entwickler sich übertrieben gesagt aussuchen kann ob er etwas über INT oder FP Funktionen abbilden möchte und er wird wann immer möglich FP wählen, aus zwei Gründen:
1.) FP-Funktionen sind mathematisch ich nenns mal "gutmütiger", man hat zwar kleine Rundungsfehler aber keine katastrophalen unerwarteten Ergebnisse bei sehr kleinen Eingangswerten, keine Singularitäten (die man nicht kennt), kurz gesagt man kann mathematische/physikalische Formeln die nunmal ebenfalls auf FP basieren ziemlich 1:1 coden und es funktioniert ohne Überraschungen.
2.) FP ist "günstiger"/schneller auf GPUs (sondereinheiten wie Matrix-INT auf Tensorkernen usw. mal außen vor). Eine FP32-Multiplikation ist ungefähr doppelt so schnell wie ne INT32 (sofern mein Kenntnisstand da noch halbwegs aktuell ist). Die zunehmende Spezialisierung auf FP wie sie jetzt auch Ampere macht verstärkt das noch, so dass konsequent auf FP ausgelegte neue Engines (siehe Doom Eternal) besonders profitieren.

Dass der Trend immer weiter zu ersterem geht hat NVidia auch erkannt (nach eigenen Angaben sind bei neuen Spielen 70-80% aller Berechnungen FP32) und entsprechend genau hier bei Ampere aufgebohrt.

Disclaimer: Das ist mein Kenntnisstand der weitgehend noch aus Studienzeiten stammt (vor allem das mathematische Zeug) was nun auch schon 10 Jahre her ist, der Rest ist nachträglich angelesen bzw. aus dem Gedächtnis. Das hat alles keinerlei Anspruch auf Vollständigkeit und ich bin auch kein Programmierer der sich da in den Details wirklich gut auskennt, wenn das jemand detaillierter weiß/erklären kann bitte gerne :-)
 
Zuletzt bearbeitet:
Ah OK, ja gut das ergibt dann freilich dann auch Sinn. Jedoch bis wann waren denn noch int Sachen genauso wichtig gewesen. Ich tippe mal auf die Zeit wo erst kurz nach dem die gtx 8800 erschienen war, da war int noch ne wichtige Rolle gewesen. Und seid dem die auflösung immer weiter stagniert, haben sich immer mehr auf fp Leistung konzentriert. Es war also ein schleichende Prozess gewesen. Aber ab wann spielte es echt endgültig keine Rolle mehr. Ich vermute mal seid dem es die 1000 serie namens gtx 1xxx der Fall war oder echt schon früher also zu gtx 980 Zeiten schon?
 
Zurück