Locuza
Lötkolbengott/-göttin
Dann ein kleiner Überblick:sry bin auch echt nicht mehr ganz fit. steamroller 2 decoder pro fpu, iwie so. is für heute dann auch mein letzter beitrag.das mit der verbindung interessiert mich aber auch, ohne den hsa-teil hätte ja crossfire oder oder eine art sli bridge gereicht. so muss ja auf fast alle cpu komponenten zugegriffen werden was mir imm so erscheint als bräuchte es einen extremen last level cache ring cache um apu und gpu, aber irgendwie kein plan wie das funktionieren soll. am ehesten könnte ich mir noch einen co prozessor wie zu 386 486 zeiten denken der prioritäten managment und cache zuweißung übernimmt, aber der macht das ganze ja auch nicht unaufwendiger, ansonsten muss man die anbindung ja soweit ausbauen das ein großteil der in fragmenten berechneten daten extrem schnell zum jeweiligen ort verschoben werden und dann im llc wieder zussamengefügt werden kann, denn ansonsten bremst es sich doch selber aus soweit ich das richtig verstanden habe?
http://www.xbitlabs.com/images/news/2009-11/amd_bulldozer_scheme.jpg
Bei Bulldozer gibt es einen Decoder-Block der bis zu 4 Instruktionen decodieren kann und den Einheiten bereit stellt.
Bei Steamroller bekommt jeder Integer-Core seinen eigenen Decoder spendiert:
http://ht4u.net/news2/news_images/amd_hotchips_2012_steamroller_1.jpg
AMD sagt aber nichts darüber aus, wie viele Instruktionen so ein Decoder bereitstellen kann.
Anandtech spekuliert auf jeweils 4 Instruktionen pro Decoder, hardware.fr spekuliert mit 3 Instruktionen und laut Optimierungshandbuch verändert sich das maximale Output gar nicht. Scheint statt 1x4 jetzt wohl 2x2 zu werden.
Also man schneidet das Maximum ab, weil bei Bulldozer kann ein Integer-Core mit bis zu 4 Instruktionen gefüttert werden, wenn der zweite inaktiv ist, bei Steamroller wird dieses Maximum nicht mehr existieren, aber auch kein Worst-Case, wo sich beide Integer-Cores um die Ressourcen und die Verteilung "prügeln".
Ist schon aber eine Weile her, dass ich das letzte mal das Zeug gelesen habe, vielleicht gibt es dazu mittlerweile mehr.
Zu dem Rest:
Ich verstehe nicht ganz genau, was du sagen willst bzw. worüber du nachfragen tust.
Was meinst du mit ohne HSA-Teil hätte eine Bridge gereicht? Für was denn?
Das mit dem Ring ist so: Die GPU von Sandy-Bridge kann den L3 benützen, um irgendwelche Daten zu cachen, anstatt über den Hauptspeicher zu gehen DDR3 z.B.
Das spart Zeit und Bandbreite, weil so ein Cache natürlich deutlich schneller arbeitet und auch in der Nähe ist, womit man zackige Zugriffszeiten hat.
Llano oder Trinity machen das gar nicht.
Die GPU speichert glaube ich alle ihre Sachen beim Hauptspeicher.
Woher du das ganze Zeug mit dem ausbremsen hast, keine Ahnung.
Am Ende eines Rendering werden alle Daten wichtigen Daten für das Bild zusammengefügt, dabei gibt es natürlich viele Datenansammlungen und viel fragmentiertes Zeug, weswegen hohe Bandbreiten wichtig sind bzw. benötigt werden.
Ein Grund weswegen z.B. die Xbox 360 10mb eDRAM angeschlossen an das Back-End hat, welcher ungefähr ~190Gb/s output liefert.
Da wird also das Bild extrem schnell zusammengeführt.
DDR3 hat ja so durchschnittlich im Dual-Channel 25 Gb/s Sekunde und eine GPU z.B. Kepler 680 GTX hat auch seine 192Gb/s für die gesamte GPU.