News CPUs mit Core Ultra 400: Konkretere Hinweise zu Intels X3D-Konkurrenz

P- Kerne, E-Kerne und jetzt noch LPE-Kerne und dann eben Intels Cachevariante... Softwareentwickler lieben es habe ich mir sagen lassen, wer hat denn da noch Bock für die Kernverwaltung noch optimieren zu müssen? :ugly:
Softwareentwickler optimieren hier überhaupt nichts. Das übernimmt der Intel Thread Director.
Die Ki spuckt folgendes aus.
Der Thread Director, eine Hardware-Intelligenz, gibt dem Betriebssystem Laufzeit-Feedback, um Aufgaben dynamisch auf den richtigen Kern zu leiten: Anspruchsvolle Aufgaben auf P-Cores, Hintergrundprozesse auf E-Cores, um Energie zu sparen und Leistung zu maximieren.
 
Diese Technik funktioniert nur dann nicht mehr wenn man wirklich jeden einzelnen Kern bis zum Anschlag auslastet ,dann spielt diese Software keine Rolle mehr. Genau das will ich ja machen. Kerne so gut auslasten bis es nicht mehr geht.
 
Also du schreibst ja das avx Leistung also Strom kostet. Ist das also der Grund warum es bei Intel Leistung kostet weil schon der maximale stromverbauch ohne avx erreicht ist ?
Den genauen Grund kann ich dir aus der Ferne nicht sagen. Avx Einheiten sind extrem schnell wenn gut ausgenutzt aber benötigen dafür auch mehr Strom. Wenn eine CPU sowieso schon im Powerlimit ist und dann avx kommt muss sie generell mit dem Takt weiter runter. AXV macht schneller, weniger möglicher Takt der restlichen CPU macht langsamer. Wie der Tradeoff insgesamt ausgeht ist vom konkreten Fall abhängig, wobei es tendenziell schneller wird bei viel avx Code und langsamer werden kann wenn nur sehr wenig AVX code kommt.
 
Softwareentwickler lieben es habe ich mir sagen lassen, wer hat denn da noch Bock für die Kernverwaltung noch optimieren zu müssen?
Kein Software-Entwickler - Abseits des Betriebssystems - kümmert sich effektiv darum, da das die Aufgabe des OS und den Schedulers ist.
Ich habe da eher die bedenken um die weiteren Kerne die hier Einzug erhalten und wie man es da korrekt managen möchte was wohin wie zugriff hat.
Was an der Stelle so überhaupt kein wirklich großes Problem ist.
ThreadDirector mitliefert der es dann automatisiert erledigt (was mittlerweile erstaunlich gut funktioniert).
Nur das der ThreadDirector an dieser Stelle genau das nicht wirklich macht und die Verteilung der Software immer noch voll in den Händen des OS und dessen Schedulers liegt und dieser am Ende die "Empfehlungen" die der ThreadDirector raus gibt, auch gefließendlich ignorieren kann.

Und "erstaunlich" gut funktionierend? Nicht so wirklich und mit den LPE-Kernen baut Intel da sogar noch eine Ebene weiter ein. Bei AlderLake und RaptorLake agiert der ThreadDirector nach einer relativ einfachen Grundregel: 1. P-Kernen, 2. E-KErne, 3. HT. Jetzt bei ArrowLake ist die Regel glaub ich etwas gedreht worden und HT fiel raus.

In den meisten Fällen agiert der ThreadDirector jedoch nach relativ einfachen Regeln, die der Windows Scheduler umsetzt. Darüberhinaus ...
Softwareentwickler optimieren hier überhaupt nichts. Das übernimmt der Intel Thread Director.
Und Intel macht mit den LPE-Kernen eine weitere Baustelle wieder auf und versucht mit "Intelligenz" das ganze irgendwie zu fixen, was am Ende zum Teil auf die "Grundregel" reduziert wird, die das Ding mit gibt.

Richtig lustig wird es, wenn man dann sogar feststellt, dass Intel beim Threaddirector sogar mit einer Whitelist arbeitet um Programme zu erkennen und diese dann auf die richtigen Kerne zu setzen, weil alles andere doch nicht so zuverlässig klappt, wie sie es sich denken.

Der ThreadDirector ist zu 95 % Marketing.
 
@DevPandi
Hast du einen Arrowlake schon mal ausgiebig genutzt und beobachtet was der Scheduler und Thread Director in der Praxis macht oder behauptest du nur Dinge vom Hörensagen?

Ich benutze den 285K jetzt seit nem Jahr täglich mit allen möglichen Workloads und kann nur berichten, dass von den ersten 4 Wochen abgesehen wo es grausam war zu Release die CPU zu 99% die "richtige" bzw. sinnvolle Verteilung der Last auf die passenden Kerne hinbekommt (wie oben im Screenshot als Beispiel gezeigt).
 
Ich rüste vom 7950x3D nur suf zen6 mit zwei 12 Kernern. Aber zum arbeiten und rendern klingen 16p, 24E und 4L erstmal viel verdprechend. Hoffen wir mal die können alle den selben Befehlssatz.

Du renderst noch mit der CPU? Kann man vielleicht noch machen... Aber eigentlich ist GPU-Rendering mittlerweile Standard.

Kommt das gleiche bei rum wie mit der CPU, braucht aber nur nen Bruchteil der Renderzeit. Hier mal was von meiner Render-Workstation via GPU mit physically based rendering mit 32x Strahltiefe (Bounces). Art Deco Zimmer (WIP), Renderzeit keine 2 Minuten:

20er_Jahre_Zimmer.jpg




Und ich Kostverächter bin noch mit Coffee-Lake-Refresh unterwegs.
Ich sehe es als Beweis, dass Intels CPUs auch gerne 6 Jahre Dauerlast aushalten. Nur das OC schafft meiner nicht mehr richtig. Egal, bringt eh kaum Mehrleistung und lässt nur meine Lüfter aufheulen und meine Stromrechnung wachsen.

Eigentlich bringt es auch nichts mehr, die CPU zu übertakten. Bei uns in D eher bringt das dann eher ne dicke Stromrechnung :D Eher RAM und GPU heutzutage, lohnt aber auch nicht mehr so wirklich bzw. immer weniger.

Thema:

Mal sehen, ob Intel wieder was vernünftiges hin bekommt. Wünschen würde ich es ihnen vor allem aufgrund dessen, damit es wieder eine gesunde Konkurrenz gibt. Früher war Intel ohne Konkurrenz, jetzt ist es AMD.

AMD schläft zwar nicht und ruht sich, wie damals die blauen, aus; aber dennoch: Intel muss wieder einen raus hauen, nicht der Papa. Gute Produkte auf Augenhöhe und Preiskonkurrenz, dann ist Intel wieder da und das macht den Markt wieder spannender.
 
Du renderst noch mit der CPU? Kann man vielleicht noch machen... Aber eigentlich ist GPU-Rendering mittlerweile Standard.

Kommt das gleiche bei rum wie mit der CPU, braucht aber nur nen Bruchteil der Renderzeit. Hier mal was von meiner Render-Workstation via GPU mit physically based rendering mit 32x Strahltiefe (Bounces). Art Deco Zimmer (WIP), Renderzeit keine 2 Minuten:

Anhang anzeigen 1510963





Eigentlich bringt es auch nichts mehr, die CPU zu übertakten. Bei uns in D eher bringt das dann eher ne dicke Stromrechnung :D Eher RAM und GPU heutzutage, lohnt aber auch nicht mehr so wirklich bzw. immer weniger.

Thema:

Mal sehen, ob Intel wieder was vernünftiges hin bekommt. Wünschen würde ich es ihnen vor allem aufgrund dessen, damit es wieder eine gesunde Konkurrenz gibt. Früher war Intel ohne Konkurrenz, jetzt ist es AMD.

AMD schläft zwar nicht und ruht sich, wie damals die blauen, aus; aber dennoch: Intel muss wieder einen raus hauen, nicht der Papa. Gute Produkte auf Augenhöhe und Preiskonkurrenz, dann ist Intel wieder da und das macht den Markt wieder spannender.
Rendern in Blender ab und zu. Aber ich brauche viele Kerne auch für Physik spielereien.

Genau genommen rendert eine CPU genauer, so hab ich das noch in erinnerung.

Nvidia über CUDA+Optix ist schau schnell, aber AMD mit Rocm + HIP holen auf.

Wenn man die AMD Karten mit CUDA emuliert laufen lässt, dann sieht man das bei AMD noch viel potenzial brach liegt.
 
Rendern in Blender ab und zu. Aber ich brauche viele Kerne auch für Physik spielereien.

Ah, verstehe.

Genau genommen rendert eine CPU genauer, so hab ich das noch in erinnerung.

Es gab auch mit CPU's schon immer Rechenungenauigkeiten aufgrund von Gleitkommazahlen. Das gesammte Rendering basiert besonders darauf. Im Endeffekt hast du schon recht, aber ich kopier mal von Chat-GPT/Copilot, dann muss ich das nicht ewig ausformulieren:

Warum entstehen Rechenungenauigkeiten beim 3D‑Rendering?​

✅ 1. Gleitkommazahlen sind immer ungenau (IEEE‑754‑Standard)

Alle modernen CPUs — egal ob Consumer oder Workstation — nutzen den IEEE‑754‑Standard für Floating‑Point‑Zahlen. Dieser Standard ist extrem weit verbreitet.
Das Problem: Viele Dezimalzahlen lassen sich nicht exakt in Binärform darstellen. Beispiel: 0,1 → unendliche Binärbruchdarstellung → muss gerundet werden.
Dadurch entstehen:
  • Rundungsfehler
  • Akkumulationsfehler (Fehler summieren sich über viele Operationen)
  • Abweichungen bei sehr kleinen oder sehr großen Werten
Diese Effekte sind unvermeidbar — selbst Supercomputer haben sie.

✅ 2. 3D‑Rendering verstärkt diese Fehler massiv

Rendering-Engines führen Milliarden von Floating‑Point‑Operationen aus:
  • Matrixmultiplikationen
  • Transformationen
  • Normalenberechnungen
  • Ray‑Intersection‑Tests
  • Shader‑Berechnungen
Jede Operation enthält eine winzige Ungenauigkeit. Viele Operationen hintereinander → Fehler wachsen.

🧩 Warum sind Consumer‑CPUs besonders betroffen?​

Nicht weil sie „schlechter“ rechnen — sondern weil sie weniger Präzision und weniger deterministische Hardware nutzen als professionelle HPC‑ oder Server‑CPUs.

✅ 1. Consumer‑CPUs nutzen fast immer 32‑Bit‑Floats (float)

Rendering‑Engines (Blender, Unreal, Unity, Arnold, Cycles, etc.) arbeiten überwiegend mit:
  • float32 (Single Precision) → 7 Dezimalstellen Genauigkeit
Workstation‑/HPC‑CPUs und wissenschaftliche Software nutzen dagegen oft:
  • float64 (Double Precision) → 15–16 Dezimalstellen Genauigkeit
Consumer‑CPUs können double, aber:
  • es ist langsamer
  • es verbraucht mehr Speicher
  • Engines optimieren auf Performance, nicht auf wissenschaftliche Präzision

✅ 2. FPU‑Optimierungen erzeugen zusätzliche Rundungsfehler

CPUs nutzen aggressive Optimierungen:
  • Out‑of‑order execution
  • SIMD‑Vektorisierung (SSE, AVX)
  • Fused Multiply Add (FMA)
  • Register‑Breite vs. Speicher‑Breite
Diese Optimierungen können zu leicht unterschiedlichen Ergebnissen führen — selbst bei identischem Code.

✅ 3. Multithreading führt zu nicht‑deterministischen Ergebnissen

Beim Rendering laufen Threads parallel:
  • Jeder Thread berechnet Pixel oder Rays unabhängig
  • Reihenfolge der Operationen ist nicht garantiert
  • Floating‑Point‑Addition ist nicht kommutativ (a+b ≠ b+a bei floats)
→ Das führt zu minimal unterschiedlichen Ergebnissen zwischen Render‑Runs.

🔍 Beispiele für typische Fehler im Rendering​

FehlerartUrsacheSichtbares Symptom
Floating‑Point DriftAkkumulation kleiner RundungsfehlerObjekte „zittern“ bei Animationen
Z‑Fightingbegrenzte Tiefenpuffer‑PräzisionFlimmernde Oberflächen
Shadow AcneUngenauigkeit bei Ray‑IntersectionSchattenartefakte
Light LeaksFehler bei Ray‑Tracing‑ToleranzenLicht scheint durch Wände
Non‑Deterministic NoiseThread‑ReihenfolgeUnterschiedliche Noise‑Patterns

🧠 Warum ist das bei Consumer‑CPUs stärker sichtbar?​

  • Engines nutzen float32, weil Consumer‑Hardware darauf optimiert ist
  • Consumer‑CPUs haben weniger FP‑Einheiten als Workstation‑CPUs
  • Consumer‑CPUs haben weniger deterministische FPU‑Pipelines
  • Consumer‑CPUs haben weniger Cache, was zu mehr Speicher‑Rundungen führt
Aber: Die mathematische Ungenauigkeit ist bei allen CPUs gleich — nur die Häufigkeit und Sichtbarkeit variiert.

✅ Fazit​

Rechenungenauigkeiten beim 3D‑Rendering entstehen durch:
  • den IEEE‑754‑Standard selbst
  • Rundungsfehler bei Floating‑Point‑Operationen
  • massive Anzahl an Berechnungen
  • Multithreading
  • Optimierungen der CPU‑Architektur
Consumer‑CPUs sind nicht „ungenauer“, aber Rendering‑Engines nutzen Präzisionsmodi, die auf Consumer‑Performance optimiert sind — und dadurch treten die Fehler stärker hervor.


CPU vs. GPU: Wer rechnet genauer beim Rendering?

✅ Beide nutzen denselben Standard (IEEE‑754)

Sowohl CPUs als auch GPUs verwenden den IEEE‑754‑Standard für Gleitkommazahlen. Das bedeutet:
  • Beide haben dieselben fundamentalen Rundungsfehler
  • Beide können float32, float64 usw.
  • Beide sind prinzipiell gleich präzise
Das bestätigt NVIDIA ausdrücklich: GPUs implementieren denselben Standard wie CPUs.

✅ Warum GPUs trotzdem oft ungenauer wirken

1. GPUs arbeiten fast immer mit float32 (Single Precision)

Rendering‑Engines auf GPUs nutzen überwiegend:
  • float32 → ca. 7 Dezimalstellen Genauigkeit
Double Precision (float64) ist auf GPUs:
  • viel langsamer
  • oft künstlich gedrosselt (besonders bei Consumer‑GPUs)
  • in vielen Shader‑Pipelines gar nicht verfügbar
CPUs hingegen rechnen intern oft mit höherer Präzision, selbst wenn der Code float32 sagt.

2. GPU‑Optimierungen erzeugen zusätzliche Ungenauigkeiten

GPUs nutzen extrem aggressive Optimierungen:
  • FMA (Fused Multiply Add)
  • massive Parallelisierung
  • approximative Funktionen (sin, cos, exp)
  • Compiler‑Flags wie -fastmath (führt zu weniger präzisen Ergebnissen)
Viele GPU‑Shader‑Funktionen sind nicht vollständig IEEE‑konform, weil Performance wichtiger ist als absolute Genauigkeit.

3. GPU‑Berechnungen sind nicht deterministisch

Durch die extreme Parallelität:
  • Reihenfolge der Operationen ist nicht garantiert
  • Floating‑Point‑Addition ist nicht assoziativ
  • Ergebnisse können zwischen Runs leicht variieren
Das ist bei CPUs deutlich seltener.

✅ Wann ist die CPU genauer?

SituationCPUGPU
Double Precision (float64)✅ schnell & präzise❌ langsam oder künstlich gedrosselt
deterministische Berechnungen✅ stabil❌ variiert
komplexe Physik‑Simulationen✅ präziser❌ approximativ
Shader‑Funktionen✅ exakte Implementierung❌ approximativ & optimiert

✅ Wann ist die GPU „genau genug“?

  • Ray‑Tracing (Monte‑Carlo‑Noise dominiert ohnehin)
  • Rasterisierung (Z‑Buffer‑Fehler sind normal)
  • Echtzeit‑Rendering (Performance > Präzision)
  • Denoising / AI‑Upscaling (Fehler werden kaschiert)
Für visuelle Ergebnisse reicht float32 fast immer.

✅ Fazit

GPUs sind nicht genauer als CPUs — im Gegenteil. Sie sind:
  • schneller
  • massiv parallel
  • aber weniger präzise
  • und weniger deterministisch
Die Ungenauigkeiten sind aber in der Praxis meist irrelevant, weil Rendering visuell tolerant ist und Fehler durch Noise, Denoiser und Sampling überdeckt werden.

Mit dem Fazit kann man also sagen: mit der Monte Carlo-Methode (ist mit der CPU die mit Abstand langsamste, liefert aber die optisch besten Ergebnisse) und durch Noises/Denoiser/Sampling kann man die Fehler gut kaschieren.

Somit bleibt, obwohl du recht hast, unterm Strich die GPU fürs 3D-Rendering das MIttel der Wahl, vor allem mit Workstation-GPU, die da ja ohnehin genauer arbeitet als eine 0815 Standard Gamer-GPU. Vor allem tritt beim CPU-Rendering der Light Leak Error sehr häufig auf und den zu fixen, bedeutet oft aufwendiges friemeln an der Szene und den Rendereinstellungen, was dann an anderer Stelle für unbefriedigende Renderergebnisse sorgen kann.
 
Zuletzt bearbeitet:
P- Kerne, E-Kerne und jetzt noch LPE-Kerne und dann eben Intels Cachevariante... Softwareentwickler lieben es habe ich mir sagen lassen, wer hat denn da noch Bock für die Kernverwaltung noch optimieren zu müssen? :ugly:

Intels Empfehlung an die Software-Entwickler lautet seit nunmehr über vier Jahren: Lasst die Finger davon!
Und die P/E/LPE-Compo verkauft Intel jetzt auch schon seit Meteor Lake Ende 2023.
Details soll der Thread-Director regeln und Probleme entstehen in erster Linie dann, wenn sich ein Spiel einmischt und Last fix auf einen Kern mit Nummer X legt, egal was dieser Kern kann. Vereinzelt gibt es auch Probleme, wenn ein Spiel ohne Ende Threads spawnt, die jeder kaum etwas zu tun haben. Aber auch das ist keine CPU-spezifisches Problem; wenn der Verwaltungsoverhead mehr Leistung auf dem Hauptthread frisst als durch die Auslagerung der eigentlichen Berechnungen auf andere Kerne frei wird oder wenn extrem viele Recheneinheiten zusätzlich belegt um mit "Multi Core" zu werben, obwohl die Performance sowieso an einem Mainthread und somit am maximalen (Oligo-Core-)Boost-Takt hängt, dann ist das einfach schlechte Programmierung.

Das ist gerüchteweise beim kommenden Sockel sogar geplant. Obs wirklich so kommt wird man sehen müssen aber Intel scheint von der "alle 2 Jahre neuer Sockel"-Nummer wegzukommen.

Sockel 1700 hielt ja schon drei Jahre und wenn NVL sich auf Anfang 2027 verschiebt, dann wird auch der 1851 älter als 24 Monate.
Das nützt aber erst etwas, wenn Intel innerhalb eines Sockels auch deutliche Architekturweiterentwicklungen oder zumindest eine drastische Steigerung der Ausführungseinheiten anbietet. Das gab es aber seit der Einführung von IMCs bei Intel allenfalls im 1366. (+50 Prozent Kerne sowie etwas mehr Cache und Takt.)

Den genauen Grund kann ich dir aus der Ferne nicht sagen. Avx Einheiten sind extrem schnell wenn gut ausgenutzt aber benötigen dafür auch mehr Strom. Wenn eine CPU sowieso schon im Powerlimit ist und dann avx kommt muss sie generell mit dem Takt weiter runter. AXV macht schneller, weniger möglicher Takt der restlichen CPU macht langsamer. Wie der Tradeoff insgesamt ausgeht ist vom konkreten Fall abhängig, wobei es tendenziell schneller wird bei viel avx Code und langsamer werden kann wenn nur sehr wenig AVX code kommt.

Der Grund ist simpel: Doppelt so breite SIMD-Einheiten können zwar doppelt so viel (synthetische) Arbeit bei gleichem Takt erledigen, der Teil der CPU verbrät dann aber auch doppelt so viel Energie und das sprengt jede TDP. Bevor es intelligente, Package-Power-folgende Turbomechanismen gab, musste also der Takt drastisch runter. Damit stieg die Effizienz, sodass unterm Strich immer noch ein ordentliches Leistungsplus bei Nutzung des neuen Formats blieb, aber alter Code sah halt nur eine lahme, untertaktete CPU => lohnt sich erst, wenn man einen hinreichend großen Anteil neuer Befehle im Code hat.
 
Zuletzt bearbeitet:
Ich weiß nicht, ob sich Intel einen Gefallen tut, mit der Kern-Zerstückelung seiner CPUs. Das mag im Mobil-Bereich effizient und nützlich sein, aber im Desktop-Bereich möchte der Anwender gerne nachvollziehbare und konsistente Leistung haben. Kunden von mir haben sich schon gegen Intel und für AMD entscheiden, einfach weil nach 8 P-Kernen die Leistung abgeflaut ist. Bei AMD bekommt man bei einem 9950X eben 16x das Gleiche. Ideal für das Ausführen mehrerer Instanzen einer Software, die ab 4-6 Threads keinen Nutzen mehr zieht.

Intel müsste sein Portfolio komplett anders gestalten:

Dicker Mehrkerner mit möglichst vielen P-Kernen, Takt und TDP jenseits von Gut und Böse
8-12 Kerner Monolith mit überfetten Cache für die Gamer
Mittelklasse Allrounder mit von mir aus Kern-Zerstückelung des Todes.
Einsteiger-CPUs, wo es eh nahezu egal ist, Hauptsache mehr als 2 Kerne...

Aber pauschal das Topmodell aka U9/i9 oder whatever9 mit allem ausstatten, was man sich denken kann? Das ist der falsche Weg. CPUs bitte nach Zielgruppe entwickeln und nicht nach einem rückständigen Aufzählungssystem alla Pentium, 3, 5, 7 und 9.
 
Zurück