G.Skill Trident Z: Erste DDR4-4133-Kits mit Samsung-Speicher

Bei kleinen CPUs macht sich schneller Ram allerdings bemerkbar.
https://www.youtube.com/watch?v=3G-7bfPG2dE&feature=youtu.be

Das hängt natürlich mit dem Cache zusammen, da hat der i3 nur 3MB, möglich das ihm da die Puste ausgeht. Allerdings ist die Frage waruzm ich mir einen Billigprozessor (Ok, so billig ist er auch nicht) kaufen sollte um ihn dann mit super teuren RAM aufzupepen. Dann lieber gleich den i5, der hat mehr Cache und ist damit weniger anfällig und seine zwei zusätzlichen Kerne sorgen auch in anderen Fällen für zusätzlichen Dampf.

Interessant wäre es ja wenn man sich den zuätzlichen Cache spart um mehr Kerne zu implementieren. Der Cell von der PS3 hat das ja so gemacht indem er auf Rambus Speicher mit 400 MHz Realfrequenz gesetzt hat (erst DDR4 3200 hat diese erreicht), allerding ist Intel beim P4 mit seinem Rambuskonzept böse auf die Fresse geflogen (auch weil sie die Vorteile nicht voll ausgenutzt haben).
 
indem er auf Rambus Speicher mit 400 MHz Realfrequenz gesetzt hat (erst DDR4 3200 hat diese erreicht)

Die Realtaktfrequenz ist aber völlig egal, die aus der Architektur resultierende Bandbreite ist entscheidend.

RAMBUS schafft 1,6 GB/s pro Channel was damals viel war aber im Vergleich zu DDR4 lächerlich wenig, dein genannter DDR4-3200 schafft 25,6 GB/s pro Channel bzw. das 16-fache (!) von RAMBUS.

Um Cache in der CPU zu ersetzen müsste man noch mindestens Faltor 10 schneller werden, selbst der langsamste L3-Teil des Caches einer Skylake-CPU liegt bei etwa 250 GB/s. Und das bei vielleicht 10 ns Zugriffszeit wo RAM auch Welten entfernt ist.
 
Die Realtaktfrequenz ist aber völlig egal, die aus der Architektur resultierende Bandbreite ist entscheidend.

Das stimmt so einfach nicht.

Ein Beispiel:
Du kannst dir eine Internetverbindung aussuchen: einmal eine Leitung mit 1MBit und 10ms Latzen und einmal einen Zug mit 1 Mio 8TB Platten, der kommt einmal im Monat und du gibt dem Zugführer die Liste mit dem was du dir nachstes mal so wünscht. Auch wenn der Zug in dem Gedankenspiel 3 TB/sec überträgt ist er gegenüber den 128KB/sec relativ unattraktiv und genau deshalb ist es ein Gigantischer Unterschied ob man den gleichen Datendurchsatz mit 100 MHz oder 1000 MHz Realfrequenz erreicht.

Um Cache in der CPU zu ersetzen müsste man noch mindestens Faltor 10 schneller werden, selbst der langsamste L3-Teil des Caches einer Skylake-CPU liegt bei etwa 250 GB/s. Und das bei vielleicht 10 ns Zugriffszeit wo RAM auch Welten entfernt ist.

Ich habe noch die Zahlen aus den alten Phenom I und Athlon 64 Zeiten präsent, damals brauchte ein Athon 64 3-4 Taktzyklen (je nach Version) um auf den L1 Cache zuzugreifen, 19-20 für den L2 Cache und der Phenom I brauchte 50 Zyklen für den L3 Cache, für den RAM hingegen waren etliche hundert Taktzyklen notwendig. Der Punkt ist das jede Cachestufe nacheinander abgefragt wird ob sich das gewünschte nicht doch drin befindet und somit ein Cache, der nichts enthält, eine bremsende Wirkung hat und die muß ersteinmal durch den Geschwindigkeitsvorteil, der sich dadurch ergibt das man den Umweg über den RAM spart, kompensiert werden. Erst wenn man sich im Bereich der Überkompensation bewegt bringt der zusätzliche Cache auch etwas. Das war einer der Gründe für das Phenom I Debakel (wobei Deabakel im vergleich zum Bulldozer relativ ist [und auch bim Bulldozer ist die schlechte Cacheanbindung größtenteils schuld am Debakel]), da brachte es bei einigen Anwendungen ein Leistungsplus den L3 Cache abzuschalten (mal ganz abgesehen vom TLB Bug).

Die eigentliche Sache ist das es einen Punkt gibt an dem die Zusatzleistung von zusätzlichem Cache Null ist, entscheidend ist dafür die Geschwindigkeit der nächsten Stufe und wie häufig darauf zugegriffen werden muß. Für die Geschwindigkeit des RAMs ist die Realfrequenz absolut entscheidend und die kann bei diversen anderen Konzepten wie Rambus, aber auch DDR4 enorm gesteigert werden, wenn man denn darauf setzt. Wenn man sich den L3 Cache sparen könnte wäre Platz frei für zusätzliche Kerne.

Im übrigen kann man auch bei Rambus den Durchsatz steigern, die Firma gibt es heute noch und sie entwickeln weiter, auch wenn böse Zungen behaupten sie verdingen sich hauptsächlich als Patenttrolle.
 
Zuletzt bearbeitet:
Jajaja ich weiß auch die Latenzen sind entscheidend. Nur sind die im Vergleich zum uralten RAMBUS ähnlich viel schneller geworden wie auch der Rest. RAMBUS lag bei rund 50 ns, aktueller DDR4 bei 10-15 ns. Ich dachte das sei offensichtlich deswegen habe ichs nicht nochmal extra erwähnt.
Tatsache ist dass moderner DDR4 dem alten RAMBUS in allen Disziplinen um ein Vielfaches überlegen ist - teilweise genau WEIL der Grundtakt so gering ist (und der Stromverbrauch entsprechend auch - an DDR4 kannste dir im Vergleich zu RAMBUS nicht mehr die Finger verbrennen...).

Dass jede Cachestufe nacheinander zwingend abgefragt wird ist auch schon lange nicht mehr zwingend so - CPUs sind auch etwas intelligenter geworden in den letzten Jahrzehnten bzw. es gibt durchaus Funktionen die "wissen" dass eine Information im L3 liegt und nicht erst einen Cache-Miss auf L1 und L2 abwarten müssen (iirc intelligente k-Prefetches). Die Hitrate bei der ganzen Geschichte ist wohl ein Punkt, an dem die Ingenieure immer noch schwitzen um sie zu verbessern da hier wirklich viel performance liegt... aber es auch sehr schwierig ist diese immer weiter zu steigern.

Wo du absolut Recht hast ist, dass irgendwann je nach Anwendung zusätzlicher Cache nichts mehr bringt, an dem Punkt sind wir ja häufig heute schon. Aber in anderen Szenarien bringt selbst L4-Cache noch spürbare verbesserungen wie wir kürzlich sehen durften bei den Broadwells.


Den Die-Bereich des L3 einzusparen für zusätzliche Kerne ist erst dann sinnvoll wenn es eine Speicherlösung gibt die ähnliche Bandbreiten und Zugriffszeiten erreicht - und davon sind wir noch weit weg - zumindest was die Zugriffszeiten angeht. Rein bandbreitentechnisch kann TSV-Speicher direkt neben der CPU bei ausreichend breiter Anbindung da Terabytes pro Sekunde reinschaufeln... nur dauert das über den vergleichsweise lahmen Speichercontroller und dessen Pipeline einfach viel zu lange als beim Direktzugriff auf Caches.
 
Zuletzt bearbeitet:
Der Sweet Spot liegt zur Zeit bei 1833/2133 MHz. Alles darüber bringt nichts mehr. Und dann gibt es ja auch noch Anwendungen, die eher von den Timings profitieren.

2 Beispiele, die unterschiedlicher nicht sein könnten:

Total War - ab DDR3 1833 nur noch marginale 4% Verbesserung (und hier haben wir ein Spiel, dass extrem im CPU Limit hängt)
Speicher für Skylake: DDR3-1.333 bis DDR4-3.000 im Vergleich

The Witcher 3 - DDR3 1333 CL7 hat die höchsten fps (das Game hängt so gut wie nie im CPU Limit)
Speicher für Skylake: DDR3-1.333 bis DDR4-3.000 im Vergleich

Du meinst aber wohl 917 und 1067 MHz. Das sind die Taktraten mit denen der RAM läuft. Die höhere Bezeichnung kommt vom DoubleDataRate-Verfahren.
 
Jajaja ich weiß auch die Latenzen sind entscheidend. Nur sind die im Vergleich zum uralten RAMBUS ähnlich viel schneller geworden wie auch der Rest. RAMBUS lag bei rund 50 ns, aktueller DDR4 bei 10-15 ns. Ich dachte das sei offensichtlich deswegen habe ichs nicht nochmal extra erwähnt.
Tatsache ist dass moderner DDR4 dem alten RAMBUS in allen Disziplinen um ein Vielfaches überlegen ist - teilweise genau WEIL der Grundtakt so gering ist (und der Stromverbrauch entsprechend auch - an DDR4 kannste dir im Vergleich zu RAMBUS nicht mehr die Finger verbrennen...).

Die ersten Autos sind auch schlechter als heutige Fahrräder, denndoch sieht man viele Autos in den Straßen. Wenn man vergleicht, dann richtig, entweder alten Rambusspeicher mit SDRAM oder DDR4 mit dem was Rambus heute zu bieten hat.

Das mit dem Konzept des schnellen Speichers nur recht kleine Module möglich wären und das man dafür wohl eine Heatpipe- oder besser Wasserkühlung bräuchte ist auch richtig. Deshalb finde ich den Ansatz mit dem langsamen RAM der mit Cache kompensiert wird den besseren.

Du meinst aber wohl 917 und 1067 MHz. Das sind die Taktraten mit denen der RAM läuft. Die höhere Bezeichnung kommt vom DoubleDataRate-Verfahren.

ohne dir zu sehr auf die Nerven zu gehen:
es sind 233,25 und 266,6025 MHz, bei DDR beträgt der Realtakt nur ein Achtel.
 
Nein - andersrum.

QuadChannel liefert die doppelte Bandbreite des DualChannels bei gleichem RAM-Takt. Sprich DDR4-2133 im Quad-Channel ist schon schneller als diese 4133er Riegel im DualChannel.

Wenn schon der UNterschied von 2000 zu 3000 MHz im DualChannel fast Null ist ist der Unterschied noch weiter oben noch geringer.


Vielleicht wirds klarer wenn mans auf andere Bereiche überträgt: Wenn du einen Verbrennungsmotor hast (CPU) und dieser Benzin benötigt (RAM-Daten) wird der Motor nicht mehr schneller, wenn du statt 2 Benzinpumpen jetzt 4 Pumpen einbaust oder noch viel schnellere Pumpen verwendest - der Motor schafft nunmal nicht mehr weil seine Drehzahl (Taktrate) begrenzt ist.

Genau so siehts bei der Bandbreite aus - ob dein RAM 25 GB/s oder 50 GB/s oder 200 GB/s liefern kann ist völlig egal wenn die Anwendung die läuft nur 2 GB/s benutzt. Alles darüber verpufft im nichts. ;)

Ich wollte noch einmal konkret eine Frage zu dieser Erklärung stellen

Wir haben eine CPU mit 10 Kernen zB (wie jetzt Broadwell-E sein wird) - sind das dann 10 Zylinder oder immer nur 1 Zylinder (übertragen auf das Motorbeispiel) die an der Benzinpumpe nuckeln? Ich denke nur so, wenn 10 Kerne auf einen Quad Channel zugreifen kann kann das doch eng werden, oder nicht?
 
Deshalb sind ja die 20MB Cache dazwischen und nicht nur drei, damit nicht ständig auf das RAM zugegriffen werden muss.
Ansonsten ändert sich nix mit der Kern-Anzahl und dem Speicher. Ist genau so geregelt wie bei den 4-Kernern.
 
Wir haben eine CPU mit 10 Kernen zB (wie jetzt Broadwell-E sein wird) - sind das dann 10 Zylinder oder immer nur 1 Zylinder (übertragen auf das Motorbeispiel) die an der Benzinpumpe nuckeln? Ich denke nur so, wenn 10 Kerne auf einen Quad Channel zugreifen kann kann das doch eng werden, oder nicht?

Dann sinds 10. Deswegen haben solche "großen" CPUs auch wesentlich mehr Cache sowie ein Quad-Channel RAM-Interface. ;)

Bei den allermeisten Szenarien würde auch hier noch DualChannel reichen, der Performanceverlust wenn man eine solche Plattform nur mit 2 statt 4 RAM-Riegeln bestückt geht fast immer gegen Null. Nur sind diese Plattformen ja auch als Workstations gedacht wo es durchaus Anwendungen gibt die viel Bandbreite brauchen bzw wenn man 10 Kerne hat kann man ja auch mal sehr viele Dinge gleichzeitig tun... deswegen wurde hier das Interface stark aufgebohrt (übrigens kommen größtenteils daher die größeren Sockel/hoheren Pinzahlen, fast alle der zusätzlichen Pins beim 2011er Sockel gegenüber dem 1151er sind fürs RAM-Interface).
 
Dann sinds 10. Deswegen haben solche "großen" CPUs auch wesentlich mehr Cache sowie ein Quad-Channel RAM-Interface. ;)

Bei den allermeisten Szenarien würde auch hier noch DualChannel reichen, der Performanceverlust wenn man eine solche Plattform nur mit 2 statt 4 RAM-Riegeln bestückt geht fast immer gegen Null. Nur sind diese Plattformen ja auch als Workstations gedacht wo es durchaus Anwendungen gibt die viel Bandbreite brauchen bzw wenn man 10 Kerne hat kann man ja auch mal sehr viele Dinge gleichzeitig tun... deswegen wurde hier das Interface stark aufgebohrt (übrigens kommen größtenteils daher die größeren Sockel/hoheren Pinzahlen, fast alle der zusätzlichen Pins beim 2011er Sockel gegenüber dem 1151er sind fürs RAM-Interface).

Sehr interessant zu hören. Vielen Dank.
Wenn ich aber 10 Kerne mit höherer MHz Zahl versorge und auch die Ram Taktrate hoch habe wie bei den 4000+ Modellen - gehst du dann immer noch davon aus, dass der Unterschied marginal ist - im Falle von CPU bzw. RAM intensiven Anwendungen?

Denkst du, dass die aktuellen TridentZ Generationen auch auf x99 bzw. Broadwell-E laufen werden?
 
Zunächst mal: Alle aktuellen DDR4-Riegel laufen auch auf allen Boards die DDR4-Slots haben, das ist Voraussetzung ihrer Spezifikation.

Die extrem hohen Taktraten dagegen sind was anderes da der in der CPU integrierte Speichercontroller diese auch schaffen muss - und der ist bei Haswell-E aktuell bis 2133 MHz spezifiziert, Broadwell-E gerüchteweise bis 2400 MHz. Um hier auf Frequenzen jenseits der 3000 zu kommen muss man schon tiefer in die Trickkiste greifen und gewisse Dinge erzwingen, auf 4000 und mehr wirst du da aber nicht kommen - vermutlich auch mit Broadwell nicht.

Das ist aber auch nicht nötig - wie gesagt bereits 2133er RAM hat auf einem X99-Board mehr Bandbreite als die 4133er Riegel aus dem Artikel hier auf einem Skylake-Brett.
Beim Quad-Channel bewegst du dich in Regionen um 50 GB/s Bandbreite. Hier eine Anwendung zu finden wo dann von mir aus 80 GB/s noch nennenswert schneller sind dürfte (zumindest im privaten Bereich) sehr schwierig werden.
 
Deshalb sind ja die 20MB Cache dazwischen und nicht nur drei, damit nicht ständig auf das RAM zugegriffen werden muss.
Ansonsten ändert sich nix mit der Kern-Anzahl und dem Speicher. Ist genau so geregelt wie bei den 4-Kernern.

Sorry, erst jetzt gesehen. Nun, das ist ein halber MB mehr als bei Skylake - das soll von Voteil sein?
Bezug wäre jetzt Broadwell mit 10 Kernen und 25 MB zu Skylake mit 8 MB
 
Zunächst mal: Alle aktuellen DDR4-Riegel laufen auch auf allen Boards die DDR4-Slots haben, das ist Voraussetzung ihrer Spezifikation.

Die extrem hohen Taktraten dagegen sind was anderes da der in der CPU integrierte Speichercontroller diese auch schaffen muss - und der ist bei Haswell-E aktuell bis 2133 MHz spezifiziert, Broadwell-E gerüchteweise bis 2400 MHz. Um hier auf Frequenzen jenseits der 3000 zu kommen muss man schon tiefer in die Trickkiste greifen und gewisse Dinge erzwingen, auf 4000 und mehr wirst du da aber nicht kommen - vermutlich auch mit Broadwell nicht.

Das ist aber auch nicht nötig - wie gesagt bereits 2133er RAM hat auf einem X99-Board mehr Bandbreite als die 4133er Riegel aus dem Artikel hier auf einem Skylake-Brett.
Beim Quad-Channel bewegst du dich in Regionen um 50 GB/s Bandbreite. Hier eine Anwendung zu finden wo dann von mir aus 80 GB/s noch nennenswert schneller sind dürfte (zumindest im privaten Bereich) sehr schwierig werden.

Ich poste mal doppelt und bedanke mich für die Antwort. Ja Broadwell soll ja mit dem Speichercontroller nachrücken, das lässt natürlich Hoffnung offen. Was ich so gesehen habe waren auf einem Rampage V Extreme mit Haswell-E um die 3.200 realisierbar, manchmal auch bisschen mehr. Ich vermute mal mit dem leichten plus bei Broadwell werden wir hier wohl was zu sehen bekommen.

Was ich allerdings nicht so ganz verstanden habe - du sagst ja, dass DDR4 überall "läuft". Nun, überall wäre ja übertrieben, Dual Channel auf einem Rampage V Extreme mit H-E und Quad Channel wäre ja sinnlos - somit sollten die Ram also Quad Channel spezifiziert sein. Diese TridentZ Reihe war bis jetzt Dual Channel klassifiziert - einmal kommen jetzt 4 Riegel für 32GB zum Einsatz. Sind diese auch für Dual Channel ausgelegt oder können diese im Quad Channel betrieben werden?
Meine Frage hat den Ursprung konkret im Unwissen, ob jetzt nur der Speichercontroller der CPU entscheidend für Dual oder Quad Channel ist, oder ob die RAM Bänke unter sich auch gewisse Vorraussetzungen mitbringen müssen (wovon ich im Grunde ausgehe).
 
blöde Frage: würde mein Mainboard den RAM nicht vertragen, käme ich dann wenigstens noch ins BIOS oder ähnliches? Oder hätte ich eine Bildausgabe? Habe gerade einen neuen PC zusammengebaut mit DDR4 2666 und das Board startet immer wieder neu. Ich vermute ja board defekt aber kanns auch am RAM liegen (habs schon mal nur mit 1 Riegel getestet, dann mit keinem usw). Welche Symptome hätte ich, wenns am RAM liegen würd?
 
blöde Frage: würde mein Mainboard den RAM nicht vertragen, käme ich dann wenigstens noch ins BIOS oder ähnliches?

Nein, du hättest einen Beep-Code für "RAM defekt" wenn er komplett inkompatibel wäre (etwa wenn du ECC-RAM in ein Board steckst das kein ECC kann) oder du erst gar keinen RAM einsetzt.
Wenn du kompatiblem RAM verwendest (etwa DDR4-4000er in ein X99-System steckst) kannst du den ganz normal benutzen - nur wird er automatisch auf 2133 MHz heruntergetaktet werden bis dus von Hand abänderst bei 2133 die höchste offiziell unterstützte Taktrate ist.

Was ich allerdings nicht so ganz verstanden habe - du sagst ja, dass DDR4 überall "läuft". Nun, überall wäre ja übertrieben, Dual Channel auf einem Rampage V Extreme mit H-E und Quad Channel wäre ja sinnlos - somit sollten die Ram also Quad Channel spezifiziert sein..

Es gibt bei RAMs keine "Channel-Spezifikation". Wenn du ein "Quad Kit" kaufst sind die Riegel exakt baugleich wie wenn du sie einzeln kaufst. Es ist einfach nur ne Packung wo 4 statt einer oder zwei drin sind. ;-)

Du kannst auch nur einen Riegel in ein X99-Board stecken - dann läufts im Single Channel. Steckst du einen weiteren dazu (der gleich groß ist - es muss nicht mal der gleiche sein!) läufts im DualChannel. Ebenso weiter mit 3 und 4 für Triple- und QuadChannel.
Einzige Voraussetzung ist, dass pro Kanal die gleiche Speichermenge verbaut ist. Du kannst auch einen GSkill, einen Crucial, einen geil und einen Kingston-Riegel zusammen einbauen die alle unterschiedliche Taktraten und Latenzen haben. Der QuadChannel funktioniert trotzdem so lange alle Riegel gleich groß sind (und die gleiche Versorgungsspannung haben...) - der langsamste der 4 Riegel gibt dabei das Tempo für alle anderen vor.
 
Zuletzt bearbeitet:
Ich habe auch GSKILL Speicher mit 2800 MHz. Diese kann ich bei mir aber nicht betreiben. egal ob mit 1,2; 1,25; 1,3 oder 1,35V (max zugelassen von GSKILL). Von daher dürften diese Speicher wirklich nur auf den wenigsten Boards funktionieren und evtl auch wie angesprochen nicht in Vollbestückung. Ich kann meinen Speicher zumindest mit 2666MHz@1,2V betreiben - das ist auch okay :)
Hast du mal die Spannung des IMC angehoben? War bei meinem 3200er auch das Problem.
 
Bei Intel geistert seit Jahren das HMC-Gespenst um. Erst kommen die Gerüchte, dass Ivy, Haswell, Skylake,... mit HMC kommen und am Ende haben wir DDR im PC.

An der Stelle ist der Druck einfach nicht besonders groß, einfach weil NOCH viel mehr Bandbreite wie man hier schon sehen kann keine Performance mehr bringt, entsprechend niedrig auf der Prioloste dürfte die HMC-Implementierung sein. Intel forciert aktuell da eher ihren 3D-XPoint als Flash-Ersatz.

In anderen Bereichen wo Bandbreite eine kritische Größe ist (etwa Grafikkarten) haben wir den HMC ja jetzt... nur heißts da eben HBM.^^

HBM und HMC unterscheiden sich deutlich und mir wären keine HMC-Gerüchte für bisherige CPU-Generationen bekannt. Zur Markeinführung von Ivy Bridge, Has- und Broadwell stand der Speicher auch gar nicht zur Verfügung. Möglicherweise liegt hier eine Verwechslung mit den Gerüchten zum Einsatz schneller Zwischenspeicher auf dem Substrat vor? Den hat Intel in Form von Crystalwell zusammen mit Haswell auf den Markt gebracht (Iris Pro). HMC war für den Einsatz als kleiner L4-Cache aber nie ernsthaft im Gespräch und wäre auch schlecht geeignet.
 
Zurück