Der Speicherbedarf steigt logischerweise an, aber nicht der Bandbreitenbedarf. Ich glaube nicht, dass sich mehrere Pixel so einfach dann die Daten teilen können, immerhin muss ja für jedes Pixel festgestellt werden, wo in der Textur es sich befindet und daraus wird dann errechnet, welche Texturdaten gebraucht werden. Wenn es oft die selben sind, spielt das natürlich wie gesagt für die Effektivität der Caches und damit die effektive Bandbreite eine Rolle, von daher gilt seit der stärkeren Nutzung von Caches schon nur noch eingeschränkt, dass größere Texturen keine Leistung kosten. Wie viel das dann wirklich ist, wäre mal ein interessanter Test.
Es werden ja nicht alle Daten im Speicher in jedem Frame gebraucht, durchaus aber bestimmte Daten mehrmals, sonst wären Caches ja wirkungslos. Von daher weiß ich nicht, wie sehr die Metrik "komplette Übertragung des VRAMs zur GPU pro Sekunde" greift. Wenn man hingegen Speicherbandbreite pro Rechenleistung betrachtet, kommt man bei der 4060Ti fast auf das gleiche Ergebnis wie bei der 4090.
Ich denke, dass deutlich weniger Daten geschaufelt werden, wenn der Speicher nicht viel zu knapp ist. Außerdem dürfte alles, was in Sicht_weite_ ist im Speicher liegen müssen, weil sich das Sichtfeld oder Verdeckungen ja sehr schnell ändern können und gerade letztere auch nicht ohne weiteres vor dem Rendervorgang klar ersichtlich sind.
Naja, eine 4060Ti hat zwar weniger Cache als eine 4090, aber nicht weniger pro Recheneinheit oder Speichercontroller. Die absolute Größe muss nicht zwingend viel ausmachen, es müssen ja nicht die gesamten Texturen, sondern nur jeweils die Teile davon, die gerade verwendet werden, darin vorgehalten werden, was ja durchaus mehr sein könnten, wenn mehr Recheneinheiten gleichzeitig arbeiten.
Es werden nicht einfach alle Daten, die in einer bestimmten Entfernung zum Spieler vorkommen könnten, in den VRAM geladen. Zum Teil weiß die Engine nicht einmal, was sich z.B. hinter einer Tür befindet, bis diese erreicht wird, weil die Tür in Spiellogik ein Portal in einen ganz anderen Bereich der Map ist. Aber selbst in Spielernähe offenliegende, nicht sichtbare Texturen werden bei knappem Speicher nicht vorrätig gehalten. Das ist einer der Gründe, warum Raytraycing, den Speicherbedarf steigert: Auf einmal muss auch geprüft werden können, was sich hinter der Spielfigur befindet. Ohne RT- oder Planar-Reflections dagegen hätte die Engine 10, 20, 30 Frames Zeit, um nur hinter dem Spieler befindliche Informationen nachzuladen, denn niemand spielt auf Einstellungen bei denen er nur 1, 2, 3 Frames während einer 180°-Drehung angezeigt bekommt.
Dein Hinweis, dass bestimmte Daten auch mehrmals pro Frame geladen werden müssen und deswegen die Transferrate passend zur Rechenleistung passen sollte, stimmt natürlich trotzdem. Ich habe bewusst einen Extremfall konstruiert, in dem jedes Mal ander Informationen geladen werden, also im Umkehrschluss entweder jedes Pixel komplett andere Texturen/Texturabschnitte nutzt und sich gar nichts wiederholt oder aber Wiederholungen in der Rechenlogik so dicht beieinander liegen, dass sie komplett vom Cache abgedeckt werden. Wenn man in Novigrad steht und die gleiche Holztextur an dutzenden Häusern, Ständen, etc. auftaucht, kann es auch gut sein, dass hinter 6 GiB ladbaren Daten pro Frame nur 2 oder 3 GiB genutzter VRAM stehen. Zuuuufällig nutzt die Originalversion von Witcher 3 mehr VRAM überhaupt nicht. Dafür sind dann aber eben selbst 8 GiB VRAM schon großzügig dimensioniert und 16 GiB erst recht überflüssig.
Zusätzlich zu "Rechenleistung pro Transferrate" und "Transferrate pro Speichergröße" kann man da als dritten Faktor also Rechenleistung pro Speichergröße ableiten. Mit 2,75 kFlop/s pro Byte steht die RTX 4060 Ti 8 GiB hier deutlich schlechter im Futter als die RTX 4090 mit 3,44 kFlop/s pro Byte. Sie muss also allgemein viel kleinere Brötchen backen und könnte in gut zur RTX4090 passenden Spielen nicht mehr Speichertransferrate ausreizen, aber erst recht nicht mehr Speicher. Eigentlich müsste man sie nach dieser Metrik maximal mit 6 GiB anbieten.
Aber: Während sinnvolle Speichergröße und Speichertransferrate für eine gegebene Framerate in einem recht festen Verhältnis zu einander stehen, ist Rechenleistung ein abgekoppeltes Thema, unter anderem nur durch Caching. Komplexe Shader oder gar Raytraycing verschlingen sehr viel Rechenleistung, bewegen aber überwiegend Daten auf der GPU. Große Texturen dagegen brauchen viel Platz und Transferrate, aber kaum Rechenleistung. Wie
@PCGH_Raff nicht müde wird zu betonen, sind gute Texturen daher ein verdammt gutes Mittel, um ohne großartige zusätzliche GPU-Last ein viel schöneres Bild zu zaubern – wenn man genug Speicher
und Speichertransferrate hat.* Umgekehrt kann man ein Bild mit Raytraycing in hoher Qualität aufwerten, wenn man nur noch überschaubare Reserven beim Speicher hat oder das Spiel halt schlichtweg keine detaillierteren Daten bereitstellen kann. Genau das wird einer RXT 4060 Ti aber eben viel seltener passieren als einer RTX 4090 mit einer viermal so hohen Rechenleistung.
Das Nvidia hier das gleiche Verhältnis aus Rechenleistung und Speichertransferrate gewählt hat, bedeutet, dass sie im Prinzip eine Raytraycing-Karte für ein Viertel der Rechenlast eines RTX-4090-RT-Setups bauen. Also für 60 Fps bei Nutzung von DLSS-Performace mit 720p Ausgabe- gleich 360p-Renderauflösung. Ich kann dir versichern: So wird niemand die Karte nutzen wollen. Stattdessen würde man normalerweise bei so einer Einsteiger(-zum-Oberklasse-Preis)-Karte die Rechenlast durch Reduktion von Einstellungen senken, aber die Texturqualität nach Möglichkeit beibehalten. Insbesondere wenn es eine Ausführung mit 16 GiB gibt! Nur rennt man halt knallhart ins Transferratenlimit, weil man z.B. ein Viertel der für RTX-4090-Spieler typischen GPU-Last mit der Hälfte von deren Speichertransferbedarf kombinieren müsste, um näherungsweise die zwei Drittel VRAM auszunutzen. Und das geht nicht, wenn man nur ein Viertel der Speichertransferrate hat. Dann müsste man auch auf ein Viertel VRAM-Nutzung runter, also 6 GiB statt 16 GiB.
*: Früher gingen beide Speichertransferrate und -größe wegen kleiner Chips und relativ hoher Taktraten automatisch Hand in Hand. Eine Geforce 4600 hat beispielsweise 80 GiB/s pro GB VRAM, eine Geforce 460 deren 86 bis 116, eine Radeon 460 (2GB) genauso wie eine Geforce 2080 Ti immerhin noch 56 GiB/s pro GB VRAM. Mittlerweile läuft die Schere wegen immer schmalerer Interfaces aber deutlich auseinander. Eine 4090 ist auf 42 GiB/s pro GB runter, eine 4060 Ti mit 8 GiB hätte 36 GiB/s*GB, eine 16-GiB-Version 18 GiB/s*GB. Das ist man bald auf dem Niveau von so legendär-ausgewogenen Karten wie der Geforce 430 mit 2 GiB (12,8 GiB/s*GB).