Mit dem Cortex A510, dem neuen little Teil der bigLittle A-Architektur für Smartphones und ähnliches bringt ARM eine alte AMD Design Idee wieder zurück. In der "shared core" Konfiguration, welche unter anderem Qualcomm bereits für seine erste Umsetzung gewählt hat, teilen sich zwei Rechenkerne eine gemeinsame FPU.
Die Begründung bleibt dabei die selbe wie früher: Die meisten Rechenaufgaben im Alltag basieren aus logischen Entscheidungen und integer Arithmetik, nur gelegentlich muss mal eine Gelitkommazahl verrechnet werden (für viele Gleitkomma Berechnungen nimmt man nämlich eh besser eine GPU). Also warum nicht den Platz sparen und die wenig benötigte Ressource nur ein Mal pro Kernpaar implementieren?
Das Konzept scheint bei den kleinen Kernen laut Chips And Cheese auch auf zu gehen. Der A510 leidet in den Benchmarks noch eher unter dem geteilten L2 Cache als an vermehrten Wartezeiten auf die FPU.
Interessant ist dabei auch der dort ebenfalls gezogene Vergleich zum alten Bulldozer Design:
Die Argumentation dazu klingt nachvollziehbar, war doch der "Bulli" gerade in Multithread Anwendungen durchaus Konkurrenzfähig, obwohl ihn gerade da das besondere Layout hätte bremsen müssen.
Detailierterer Aufbau der Kombi-Cores:
Quelle:
Die Begründung bleibt dabei die selbe wie früher: Die meisten Rechenaufgaben im Alltag basieren aus logischen Entscheidungen und integer Arithmetik, nur gelegentlich muss mal eine Gelitkommazahl verrechnet werden (für viele Gleitkomma Berechnungen nimmt man nämlich eh besser eine GPU). Also warum nicht den Platz sparen und die wenig benötigte Ressource nur ein Mal pro Kernpaar implementieren?
Das Konzept scheint bei den kleinen Kernen laut Chips And Cheese auch auf zu gehen. Der A510 leidet in den Benchmarks noch eher unter dem geteilten L2 Cache als an vermehrten Wartezeiten auf die FPU.
Interessant ist dabei auch der dort ebenfalls gezogene Vergleich zum alten Bulldozer Design:
Das Problem von Bulldozer sei nämlich gar nicht die geteilte FPU gewesen, sondern die schlechtere Cache Latenz und eingeschränktere Fähigkeiten Aufgaben umzusortieren, im Vergleich zu Intels Sandy Bridge.Note on Bulldozer
Bulldozer is an obvious comparison because it also shares substantial resources between core pairs. However, shared resources had little to do with Bulldozer’s performance problems. In fact, Bulldozer was most competitive in multithreaded applications where there could be contention for shared resources. Bulldozer issues came from having less per-thread reordering capacity and higher cache latency than Sandy Bridge in a market where single-thread performance was of paramount importance. Cortex A510 does not target the high performance market. If performance did matter A510 would be held back by its in-order execution scheme, not shared resources. Instead of performance, A510 targets low power and area. Sharing resources fits that goal perfectly.
Die Argumentation dazu klingt nachvollziehbar, war doch der "Bulli" gerade in Multithread Anwendungen durchaus Konkurrenzfähig, obwohl ihn gerade da das besondere Layout hätte bremsen müssen.
Detailierterer Aufbau der Kombi-Cores:
Quelle:
Arm’s Cortex A510: Two Kids in a Trench Coat
Arm’s 5-series line moves slowly. The Cortex A53 and A55 each served across multiple generations of 7-series companions, and both were 2-wide in-order cores running at low clocks. When your a…
chipsandcheese.com