AW: [Sammelthread] AMD K15 Bulldozer - aktuell: BD erscheint (mit sehr hoher Wahrscheinlichkeit) am 12. Oktober
Jedenfalls jetzt malw as zum Bulli.
Wie darf ich das jetzt verstehen. Die Games werden, wenn sie als Beispiel jetzt 2 Kerne nutzen würden auf ein Modul aufgeteilt und die Gleitkommaeinheit wird dann zum Flaschenhals oder wie darf ich das verstehen?
Skysnake?
Wie kann ich helfen?
Also die FPU sollte eigentlich nicht zum Flaschenhals werden. Soweit ich das richtig im Kopf habe, wurde diese ja von der Größe her dupliziert im Vergleich zu einem Phenom II Kern. So lange man also nicht AVX exzessiv nutzt, merkt man keine Leistungseinbußen, da jedem Thread eine vollwertige FPU zur Verfügung steht. Im Vergleich zu zwei komplett getrennten Cores ohne FlexFPU hat man sogar die Möglichkeit, bei geringer Auslastung der FPU sogar mehr Ressourcen zu haben, da die FPU ja einem Thread komplett zugewiesen werden kann. Damit ließe sich FP-Code sogar schneller abarbeiten als auf getrennten FPUs, wenn eben diese nicht voll ausgelastet ist.
So jetzt aber zum wichtigeren Vergleich zum Fall, das man zwei Threads auf 2 Module verteilt. Da haben die dann natürlich jeweils die komplette Flex-FPU zur Hand, was natürlich deutlich mehr Durchsatz erlaubt. Wenn exzessiv AVX eingesetzt wird, wären da bis zu 100% Mehrleistung drin.
Man verschenkt aber halt wohl einen gewissen Teil seines Turbos.
Wie man sieht alles andere als einfach. Es kommt halt immer EXPLIZIT auf den Code drauf an, was besser ist. Das kann man a priori aber nicht wissen. Also das OS. Es sei denn der Programmierer teilt dem OS dies eben irgendwie mit. Unterm Strich gibt es also keine optimale Lösung, da man eben das Verhalten der Prozesse nicht 100% vorhersagen kann. Wie an so vielen Stellen halt. Man kann nur versuchen so wenig wie möglich zu verlieren.
EDIT: Macht mal langsam

Ich muss Dr. House schauen etc.
Ich vergesse/übersehe so was nicht, und wenns wirklich interessiert, einfach PM an mich, oder auf die Pinwand, dann antworte ich immer, sobald ich dazu komme!
Kurz um nochmals, es gibt nicht DIE perfekte Lösung für das Problem, sondern nur Lösungen mit möglichst wenig Einschränkung, bzw. eben auf ein Szenario angepasst. Das kann dann aber in einem anderen dann viel schlechter sein als die 0815 Lösung, die eben nirgends super toll, aber auch nirgends super schlecht ist.
Was man machen kann ist halt Prozesse an einen hardware-Thread pinnen und gut ist. Die Möglichkeit hat man ja.