Startup will mit 4.096 Kernen den effizientesten Mikroprozessor anbieten

PCGH-Redaktion

Kommentar-System
Teammitglied
Tja, es sieht so aus, als wäre langsam das Ende der rechenstarken Einzelkerne angebrochen. Intel zeigt mit dem Knight's Corner, wie viel Rechenleistung in einen CPU-Sockel passt, AMD setzt beim Bulldozer ausschließlich auf Vereinfachung, und nun wird ein Prozessor mit sage und schreibe 4096 Kernen entwickelt, der auch noch der effizienteste Prozessor weit und breit sein soll^^
Jetzt liegt es an den Programmierern, diese Leistung auch auf die Strecke zu bringen - nicht jedes Programm schafft es, über 4000 Threads zu verarbeiten :)
 
nicht jedes Programm schafft es, über 4000 Threads zu verarbeiten :)

"Nicht jedes" ist ein bisschen beschönigend formuliert. "Kaum ein" wäre treffender.

Davon abgesehen gibts ohnehin schon sowas ähnliches, was sich GPU nennt. Die GPUs von AMD und Nvidia bieten auch an die 1000 Prozessoren an, aber sie können leider nur unendlich parallelisierbare Programme schnell ausführen. Dazu unterstützen sie auch nur sehr spezielle Befehle.
 
Ich frage mich allerdings, was man von 4096 Kernen haben soll, wenn noch nichtmal 8 genutzt werden können. Die Programmierer sollen endlich mal aus dem Arsch kommen. !
 
Glaube so eine CPU ist nur für Supercomputer oder Server gedacht.

Ausser man würde z.B. in einer Schule so einen PC haben mit der CPU und jede Menge Bildschirme würden angeschlossen sein und wenn es ein pasendes OS geben würde das mehrere User gleichzeitig auf dem selben PC zugreifen lässt, dann hat diese CPU einen Sinn.
 
Ausser man würde z.B. in einer Schule so einen PC haben mit der CPU und jede Menge Bildschirme würden angeschlossen sein und wenn es ein pasendes OS geben würde das mehrere User gleichzeitig auf dem selben PC zugreifen lässt, dann hat diese CPU einen Sinn.

Wird wohl kaum der Fall werden, weil die CPU schlicht und einfach zu langsam wäre.
 
Ich verstehe aus den letzten beiden Post nur .... OC ... OC ... OC ! ... bla bla ... OC !!! oc ... Oc ...oC !! :ugly:
 
Tja, es sieht so aus, als wäre langsam das Ende der rechenstarken Einzelkerne angebrochen. Intel zeigt mit dem Knight's Corner, wie viel Rechenleistung in einen CPU-Sockel passt, AMD setzt beim Bulldozer ausschließlich auf Vereinfachung, und nun wird ein Prozessor mit sage und schreibe 4096 Kernen entwickelt, der auch noch der effizienteste Prozessor weit und breit sein soll^^
Jetzt liegt es an den Programmierern, diese Leistung auch auf die Strecke zu bringen - nicht jedes Programm schafft es, über 4000 Threads zu verarbeiten :)
Ich kann deinen keinen Gedanken nur einen Schritt weit folgen. Es ist eig. die Zeit der SoC's angebrochen.
Der Stromverbrauch wird immer mehr und mehr der limitierende Faktor und der Die-Size immer weniger. In Zukunft werden uns multifunktionale Chips begegnen die einfach aus einem Haufen von Spezialisten bestehen und solche Chips findet man seit einigen Jahren in Smartphones ;)
Die CPU wird dabei nie aussterben, bloß auf die wenigen Funktionen beschränkt bleiben die sie von hoch parallelisierten Chips abheben tut, extrem schnelle Berechnung von wenigen Befehlen.
Der Chip wird einfach intelligent Aufgaben verwalten müssen die auf mehrere Tasks verteilt werden können--> GPU
und Aufgaben die Laufzeit kritisch sind und die Bereitstellung der Ergebnisse große Priorität hat --> CPU.
In wie fern setzt eig. AMD auf eine " Vereinfachung"?

Diese 4.096 Kerne ist übrigens nicht der "effizienteste Chip" weit und breit. Dies ist einfach zu pauschal ausgedrückt, weil was toll klingt hat ganz sicher seine Limitierung wo anders. Wie hoch ist die IPC? Hat das Ding überhaupt genug Caches für XYZ?
Dieser Chip scheint nur für das stumpfe abarbeiten von Rechenbefehlen konzipiert geworden zu sein, welche natürlich ein hohes Maß an Unabhängigkeit, Parallelität usw. benötigen. In dieser Disziplin sollte dieser Chip sich dann auch sehr gut schlagen können, für Aufgabenfelder die andere Bedingungen stellen könnte der Chip gnadenlos zusammenbrechen.


Ich frage mich allerdings, was man von 4096 Kernen haben soll, wenn noch nichtmal 8 genutzt werden können. Die Programmierer sollen endlich mal aus dem Arsch kommen. !
8 Kerne im Consumer-Markt. Im Workstation und HPC-Markt finden sich natürlich Anwendungen die eine Parallelität>90% aufweisen können.
Viele Programme die ein Consumer verwendet, sind einfach nicht so hoch parallelisierbar, weil sie eben Datenabhängigkeiten besitzen und eine Menge anderer Gründe.
Ich würde dich auch bitten Programmierer im weiteren Verlauf nicht " an zu greifen ". Wenn dir die Entwicklung zu langsam voran geht, dann studiere Informatik und versuche die Welt zu retten, du wirst schnell merken so einfach ist das nicht.
 
Zuletzt bearbeitet:
mit 4.096 Rechenkernen bei 600 MHz und 80 Watt Leistungsaufnahme 5,632 TFlops
Ich weiß, Google ist Dein Freund, wenn es um solche Sachen geht, aber wenn man solche Angaben macht, warum nicht kurz ein Vergleich zu aktuellen, gängigen CPUs?
Und das gilt nicht nur in/für diesem Artikel, sondern generell. Wenn man etwas neues vorstellt und schreibt, wie ach so toll das doch ist, dann kann man doch auch kurz schreiben, wie der aktuelle Stand zur Zeit eigentlich ist, damit man den Vergleich hat (sofern es bereits eine vergleichbare Technologie gibt).

Wen das interessiert und diese Info ebenfalls vermißt:
Core i7 Sandy-Bridge; 3,4 GHz; 4 Kerne; 102,5 GFlops bei 95 Watt
Da wird erst die beeindruckende Effizeint sichtbar.

Rechnet man das mal auf den kleinsten gemeinsamen Nenner runter:
5632 GFlops auf 4096 Kerne bei 600 MHz -> 1,375 GFlops pro Kern bei 600 MHz-> 0,458 GFlops pro Kern bei 200 MHz.
102,5 GFlops auf 4 Kerne bei 3400 MHz -> 25,625 GFlops pro Kern bei 3400 MHZ -> 1,507 GFlops pro Kern bei 200 MHz für Sandy-Bridge.
Aber wenn ich mich nicht verrechnet habe, liegt der Witz dann ja in der Leistungsaufnahme:
80 Watt /4096 Kerne /3 = 0,0065 Watt oder 6,5 Milliwatt für die 0,458 GFlops pro Kern bei 200MHz.
95 Watt / 4 Kerne / 17 = 1,397 Watt oder eben 1397 Milliwatt für 1,507 GFlops bei 200 MHz für Sandy-Bridge.
Das heißt, die Intel-CPU liefert ungefähr 3fache Leistung bei nicht ganz 200fach höherem "Verbrauch" pro Kern bei gleicher Taktung.
Oder anders ausgedrückt: diese neue CPU-Technik ist etwa 60mal effizienter.
Respekt.
Für den Desktop wahrscheinlich eher uninteressant, aber da wo es auf Leistung pro Watt ankommt wie Tablets, Smartphones und Laptops sicherlich interessant, wobei der mit seiner DIE-Größe sicher nicht in ein Smartphone kommt.

/edit: Die Leistungsaufnahme von 95 Watt beim Sandy-Bridge beinhaltet allerdings auch Grafikeinheit. Es fehlen allerdings Daten, wieviel die 4 Kerne bei 3,4 GHz ohne die GPU verbrauchen. Ebenfalls ist mir nicht bekannt, ob die angegebenen 102,5 GFlops auch die Rechenleistung der GPU umfaßt. Wahrscheinlich fallen (Rechen-)Leistung und (Verlust-)Leistung niedriger aus, wenn man nur die CPU der Sandy-Bridge betrachtet. Von daher stimmt die Rechnung nicht ganz, aber die Tendenz dürfte stimmen. Und selbst wenn diese neue CPU-Technik "nur" noch 30mal effizenter arbeitet, so ist das immer noch beeindruckend.
 
Zuletzt bearbeitet:
Rechnet man das mal auf den kleinsten gemeinsamen Nenner runter:
5632 GFlops auf 4096 Kerne bei 600 MHz -> 1,375 GFlops pro Kern bei 600 MHz-> 0,458 GFlops pro Kern bei 200 MHz.
102,5 GFlops auf 4 Kerne bei 3400 MHz -> 25,625 GFlops pro Kern bei 3400 MHZ -> 1,507 GFlops pro Kern bei 200 MHz für Sandy-Bridge.
Aber wenn ich mich nicht verrechnet habe, liegt der Witz dann ja in der Leistungsaufnahme:
80 Watt /4096 Kerne /3 = 0,0065 Watt oder 6,5 Milliwatt für die 0,458 GFlops pro Kern bei 200MHz.
95 Watt / 4 Kerne / 17 = 1,397 Watt oder eben 1397 Milliwatt für 1,507 GFlops bei 200 MHz für Sandy-Bridge.
Das heißt, die Intel-CPU liefert ungefähr 3fache Leistung bei nicht ganz 200fach höherem "Verbrauch" pro Kern bei gleicher Taktung.
Oder anders ausgedrückt: diese neue CPU-Technik ist etwa 60mal effizienter.
Respekt.
Für den Desktop wahrscheinlich eher uninteressant, aber da wo es auf Leistung pro Watt ankommt wie Tablets, Smartphones und Laptops sicherlich interessant, wobei der mit seiner DIE-Größe sicher nicht in ein Smartphone kommt.
Ist denn die Effizienz gegenüber einer GPU immer noch so beeindruckend? ;)
So ein Chip ist auch für Laptops und Smartphones uninteressant. Smartphones verwenden schon beinahe für jeden Aufgabentyp einen spezialisierten Chip. Bei Laptops würde so ein Chip auch sicherlich stark einbrechen bei den gewöhnlichen Programmen die benützt werden.
60 mal effizienter ist die "CPU-Technik" nur auf ihr zugeschnittenes Aufgabenprofil.
 
Was heute angekündigt und groß rausposaunt wird, muß noch lange nicht schon morgen rauskommen.

Dieser Chip existiert derzeit nur auf einem Blatt Papier.
Das die Entwicklung in diese Richtung (zu scheinen) geht, dürfte wohl jedem klar sein, der sich für diese Materie interessiert.

Mit dem Chip ist vor 2014 wohl definitiv nicht zu rechnen, wenn überhaupt, und da spreche ich natürlich von den heimischen PCs.

Das Server bereits eine Vielzahl von Kernen kombiniert mit mehreren ganzen Prozessoren in einem System nutzen ist auch klar.

Unklar ist jedoch, ob sich diese Meldung an Otto-Normal-User-PCs oder Buisness-Server richtet.
Server wären natürlich eher denkbar.

Sagen wir drum, die Meldung ist einfach nicht informativ genug. - Die Zeit wird's zeigen ... :daumen:
 
@X-CosmicBlue: Es sind 5632TFlops, nicht GFlops, somit ist deine Rechnung falsch:ugly:
Nein, da steht "5,632 TFlops", in Worten 5 Komma 632 TFlops, das sind sehr wohl 5632 GFlops. Ich habe einfach im Kopf umgerechnet, ich entschuldige mich für die dadurch entstandene Unklarheit/Verwirrung.

Nein, es sind eigentlich 5632 GFlops (siehe Quelle). Im PCGH-Artikel steht es jedoch falsch. Da muss sich der Autor eben mal um eine Größenordnung vertan haben :D Der andere Wert wäre auch absolut nicht zu realisieren in diesem Jahrzehnt. Bitte im Artikel ändern!
Da 5632 GFlops 5,632 TFlops, in Worten 5 Komma 632 TFlops, sind, steht es im Artikel richtig. Er hat einfach im Kopf umgerechnet, so wie ich. Siehe oben.

Aber richtig, der gesunde Menschenverstand sollte einem auch sagen, das ein Faktor von 50.000 (kein Komma! In Worten Fünfzigtausend!) von 102,5 GFlops auf 5632 TFlops unrealistisch(vielleicht nicht unbedingt in diesem Jahrzehnt, aber bestimmt bis 2018) sind, nur weil man 1024mal so viele Kerne nutzt, die aber 5,6mal niedriger getaktet sind - unabhängig vom "Stromverbrauch".
 
Zuletzt bearbeitet:
"Nicht jedes" ist ein bisschen beschönigend formuliert. "Kaum ein" wäre treffender.

Davon abgesehen gibts ohnehin schon sowas ähnliches, was sich GPU nennt. Die GPUs von AMD und Nvidia bieten auch an die 1000 Prozessoren an, aber sie können leider nur unendlich parallelisierbare Programme schnell ausführen. Dazu unterstützen sie auch nur sehr spezielle Befehle.

Ironie ist nicht dein Ding, oder? ;)

Edit:

Ich kann deinen keinen Gedanken nur einen Schritt weit folgen. Es ist eig. die Zeit der SoC's angebrochen. Stromverbrauch wird immer mehr und mehr der limitierende Faktor und der Die-Size immer weniger. In Zukunft werden uns multifunktionale Chips begegnen, die einfach aus einem Haufen von Spezialisten bestehen und solche Chips findet man seit einigen Jahren in Smartphones ;)
Die CPU wird dabei nie aussterben, bloß auf die wenigen Funktionen beschränkt bleiben, die sie von hoch parallelisierten Chips abheben tut, extrem schnelle Berechnung von wenigen Befehlen.
Der Chip wird einfach intelligent verwalten müssen, aus Aufgaben die auf mehrere Tasks verteilt werden können--> GPU
und Aufgaben die Laufzeit kritisch sind und die Bereitstellung der Ergebnisse große Priorität hat --> CPU.
In wie fern setzt eig. AMD auf eine " Vereinfachung"?

Diese 4.096 Kerne ist übrigens nicht der "effizienteste Chip" weit und breit. Dies ist einfach zu pauschal ausgedrückt, weil was toll klingt hat ganz sicher seine Limitierung wo anders. Wie hoch ist die IPC? Hat das Ding überhaupt genug Caches für XYZ?
Dieser Chip scheint nur für das stumpfe abarbeiten von Rechenbefehlen konzipiert geworden zu sein, welche natürlich ein hohes Maß an Unabhängigkeit, Parallelität usw. benötigen. In dieser Disziplin sollte dieser Chip sich dann auch sehr gut schlagen können, für Aufgabenfelder die andere Bedingungen stellen könnte der Chip gnadenlos zusammenbrechen.
[...]

Stimmt, hier kann ich dir zustimmen. Hast Recht :daumen:
Vereinfachung beispielsweise anhand der CPU-Kerne, die eigentlich nur noch integereinheiten sind... oder hab ich da was komplett falsch verstanden?
 
Zuletzt bearbeitet:
Stimmt, hier kann ich dir zustimmen. Hast Recht :daumen:
Vereinfachung beispielsweise anhand der CPU-Kerne, die eigentlich nur noch integereinheiten sind... oder hab ich da was komplett falsch verstanden?
Ja, da hast du etwas zum Teil falsch verstanden. Der Bulldozer stellt keine Vereinfachung dar, sondern sogar eine "Verkomplizierung". Ein klassischer CPU-Kern sah früher wie eine Pizza mit einer großen Salami aus.
Der Bulldozer ist eine geschnittene Pizza. Vorteil: Du kannst 2 Menschen damit füttern, die Stücke sind aber nur halb so groß.

Metapher bei Seite, eine CPU besteht aus paar Zutaten wie Integer Kernen, L1,2 etc. Caches, Pipelines,Dekodern, ALUs, AGUs, FPUs et cetera.
Das Konzept hinter Bulldozer zielt auf einen totalen Kompromiss ab. Die FPU ist meistens sehr mächtig und dreht bei einem Integer-Kern oft Däumchen. Klar das verbraucht Platz und Effizienz, deshalb hat ein Core jetzt 2 Integer-Kerne um Platz zu sparen und eine FPU besser aus zu lasten. Die Integer-Kerne sind aber schwächer als die alten Rechenkerne, aber dieser Schwäche will man mit dem Turbomodus entgegen treten. Im Prinzip ist der Bulldozer sehr intelligentes Konzept, was an zu vielen kleinen Ungereimtheiten scheitert.
Das Ziel ist es den besten Kompromiss aus Platz und Perf/Watt zu finden. Einheiten deren Leistungskraft brach liegt, werden besser ausgenützt, durch mehrere Integer-Kerne können mehr Threads verarbeitet werden, sind weniger Threads vorhanden dann wird aufgrund der eher schwachen Kerne hoch getaktet, um dennoch genug Performance zu liefern und die anderen Module ausgeschaltet um Strom zu sparen.

Um es dir zu verdeutlichen. Ein Bulldozer-Modul hat 4 Dekoder die 2 Integer-Kerne füttern. Ein Phenom Integer-Kern hat 3 Dekoder die ihn füttern. Bulldozers Integer-Kerne haben 2 ALUs und 2 AGUs, also der eine rechnet, der andere adressiert und ein Phenom Kern hat 3 jeweils von beiden. Dann gibt es noch den L1-Cache, den L2 Cache und ihre Latenzen. Bulldozer hat einen sehr kleinen L1-Cache, L2 ist größer und L3 auch, aber die Caches an sich sind noch einmal eine ganze Spur langsamer.
Also man sieht auf den ersten Blick das der Bulldozer noch nicht perfekt abgestimmt ist. Bei einem Phenom kann man die Vermutung führen, dass viele Ressourcen overpowered sind und gar nicht ausgenützt werden und beim Bulldozer kann man sich Vorstellen, dass nicht alle Einheiten auch wirklich ausgenützt werden können.
 
Zuletzt bearbeitet:
Wie uns schon das VLW5 Design von den ATI Karten zeigte , sind die Prozessoren nur so effizient , wenn sie auch so ausgelastet werden. Hier kommt ja auch noch das Amdalsche Gesetz hinzu, das kurz und knapp schildert, das je mehr Kerne desto mehr Verwaltung und das macht die Kurve der Effizienz kaputt ! Amdahlsches Gesetz

Klar alles Theorie , naja lassen wir uns mal überaschen.

Grüße Goliath1985:D
 
Zurück