Die Aussage zu ARM ist in dieser allgemeinen Form grundsätzlich falsch.Okay, habe in dem Fall auch nur gefragt, weil die CPUs immer wieder gerne mit den big.LITTLE-ARMs in Smartphones/Tablets verglichen werden und dort arbeiten eben entweder oder die starken oder schwachen Kerne.
ARM hat hier über die Zeit unterschiedliche Mechanismen implementiert. Das was du skizzierst, ist deren früheste, gut ein Jahrzehnt alte big.LITTLE-Implementation, die sogenannte Cluster-Migration, bei der kleine und große Kerne in zwei Cluster (zu max. 4 Kernen) zusammengefasst wurden und je nach Lastszenario wurde der Cluster mit den kleinen, effizienten Kernen oder der Cluster mit den großen Kernen genutzt. Das ist aber, wie gesagt, das älteste und ineffizienteste Konzept.
Wenig später kam die CPU-Migration (auch als In-Kernel-Switcher bezeichnet) als Alternative hinzu, bei der jeweils ein großer Kern mit einem kleinen Kern gepaart/zusammengefasst wurde (was es erforderlich machte, in einem SoC die gleiche Zahl an kleinen und großen Kernen zu implementieren). In einer 2x4-CPU bspw. sieht das OS damit effektiv nur vier Kerne und schaltet im Hochlastszenario innerhalb der einzelnen Paarungen auf den großen Kern um und bei Bedarf wieder zurück auf den kleinen Kern. Bereits diese frühe Erweiterung erlaubte einen Mischbetrieb kleiner und großer Kerne.
Und bereits etwa 2013 stellte man das Global Task Scheduling vor, bei dem der Scheduler jeden einzelnen Kern sieht und diesen separat ansteuern kann und komplexe Heuristiken für den optimalen Betrieb des SoCs verwendet. So schreibt AMR in seiner Dokumentation zu GTS:
- The system can have different numbers of big and LITTLE cores.
- Any number of cores can be active at any one time. When peak performance is required the system can deploy all cores.
In 2017 stellte ARM dann mit DynamIQ die aktuellste Weiterentwicklung ihres big.LITTLE-Konzepts vor (die Arbeiten hieran begannen bereits in 2013), die noch deutlich mehr Flexibilität brachte:
- CPUs/Kerne können nun flexibel und beliebig einem Cluster zugeordnet werden (max. 8 CPUs/Kerne pro Cluster (vormals max. 4); max. 32 Cluster), d. h. hier können auch problemlos große und kleine Kerne gemischt werden.
- Innerhalb eines Clusters können die Kerne in bis zu 8 unterschiedliche Spannungs/Frequenz-Domänen gruppiert werden.
- Zudem läuft jeder Kern grundsätzlich in seiner eigenen Power Domäne unnd kann individuell abgeschaltet werden.
Bis zu maximaler Flexibilität wird man das Konzept in der Praxis jedoch nicht durchexerzieren, denn jede Spannungs/Frequenz-Domäne benötigt ihren eigenen Voltage-Regulator auf dem Die, was Kosten und Komplexität erhöht, sodass man voraussichtlich Möglichkeiten zur Domänen-Gruppierungen von zwei bis vier CPUs/Kernen in realen SoCs antreffen wird.
Beispielsweise auf so kleinen Designs wie Smartphone-SoCs kann man daher bereits die 8 Kerne (bspw. 4 kleine und 4 große) eines SoCs in einer einfachen Variante bereits alle in einen einzigen Cluster stecken und diese dort beliebig in Spannungs/Frequenz-Domänen gruppieren, so bspw. als 1+7, 2+6, 3+5 oder 4+4.
Eigentlich gehen die aktuellen Gerüchte genau in die entgegengesetzte Richtung und unterstellen der neuen Gracemont-Architektur einen deutlich gesteigerten Durchsatz (AVX/2 dagegen ist bereits bestätigt). Und mit Blick auf Office-Workloads stellt sich die Frage grundsätzlich eher weniger und erst recht nicht, wenn man dann auch noch acht Gracemont-Kerne zur Verfügung hat.Also ganz im Ernst... Ist mir klar, dass das nicht ernsthaft etwas mit CMT oder HT(SMT) zu tun hat. Den Vergleich habe ich nur angebracht, weil die Kerne eben vermutlich deutlich schwächer sind und dementsprechend eben auch kein so großer Leistungs-Zugewinn mit ihnen möglich ist.
Erst im Hochlastszenario wird das ein Thema so bspw. im 3D-Rendering (oder bspw. Gaming). Aber hierzu gab es ja bereits kürzlich Leaks, die insgesamt betrachtet bis zu 200 % MT-Leistung in Aussicht stellen, d. h. die Gracemont-Kerne können gar nicht so langsam sein. *)
Natürlich wird man am Ende abwarten müssen, in welchen Szenarien die 200 % tatsächlich erzielt werden, denn das trifft zweifellos nicht für alle Workloads zu (ist ja grundsätzlich so, wenn man marketingtechnisch einen komplexen Sachverhalt auf eine einzige Zahl einzudampfen versucht und bspw. bei Zen ja auch nicht anders), aber offensichtlich werden sowohl Golden Cove als auch Gracemont beide (erneut) einen größeren Entwicklungsschritt darstellen. Das kombiniert mit einer nochmals optimierten 10nm-Iteration klingt durchaus vielversprechend.
*) Und die Gracemont-Kerne werden voraussichtlich ebenso absehbar vergleichsweise hoch takten können, denn mit bspw. etwas wie angenommenen 4,5 GHz AllCore-Takt auf den Golden Cove-Kernen und nur bspw. 3,0 GHz-AllCore-Takt auf den Gracemont-Kernen würde man voraussichtlich nicht in Richtung 200 % MT-Leisttung kommen, weil dann entweder die GC-Kerne viel zu leistungsfähig sein müssten oder aber umgekehrt die GM-Kerne eine geradezu überirdische IPC haben müssten.
Zuletzt bearbeitet: