News Angriff auf Intel und Apple: AMD und Nvidia entwickeln ARM-Chips [Gerücht]

ARM-Lizenzen kann man einfach kaufen. ;-)
was der Grund war, warum ich geschrieben hab, dass es wohl kein Problem sein wird.
Und wenn man nicht, wie Apple, die Kerne selbst weiterentwickeln will, braucht man auch kein spezifisches Know-How. Implementiert kriegen die selbst chinesische oder russische Start-Ups und wie man beliebige Kerne einbettet und ordentlich vernetzt, das weiß AMD ja.
Das stimmt natürlich, man kann fertige ARM Kerne verwenden.
Dann hebt man sich halt aber auch nicht von der Konkurrenz ab.
Aber einfach nur x86 gegen ARM zu tauschen, bringt halt keine riesigen Leistungs- oder gar Effizienzfortschritte in den von AMD bedienten Marktbereichen. Der direkt mit x86 beschäftigte Decoder-Teil einer modernen CPU ist zwar eher 10 bis 15 Prozent groß und wenn man den zusätzlichen Aufwand bei der Sprungvorhersage, Scheduling im Backend mitzählt, der aus der größeren Bearbeitungslatenz von CISC-Befehlen resultiert, dann ist man sogar schnell bei den 30 Einsparpotenzial,
Ich bin mir da grad nicht sicher ob ich das richtig verstehe, du meinst in einem modernen Kern mit modernen Verfahren sind bis 30% x86 exklusive Recheneinheiten (und Co?). Ich ging eher davon aus, dass das inzwischen ein verschwindend geringer Teil ist und der Rest recht allgemein funktioniert.

Erst bei sehr kleinen CPUs hat ARM einen prinzipiellen Vorteil, denn der x86-Overhead lässt sich nicht beliebig verkleinern. Verglichen mit einem modernen .Little-Cluster sind auch E-Cores immer noch sehr mächtige und damit stromhungrige Rechenwerke.
hmmm: ob nicht Intel das gerade versucht, diverse Kompatibilität wegzulassen und den x86 Teil zu verkleinern (wann auch immer das kommen wird) https://www.tomshardware.com/news/intel-ponders-transition-to-64-bit-only-x86s-architecture
bzw hier: https://www.phoronix.com/news/Intel-X86-S-64-bit-Only

Wenngleich ich nicht abschätzen kann wie viel man sich da spart.
Allerdings sollte in Homecomputern, Laptops und Co der Verlust von 16/32 Bit HW Support verschwindend geringe Folgen haben.
SiFive sieht das nun anders. :(
Eingebundener Inhalt
An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.
WER?
Aha irgendein Mensch der seine Meinung auf YouTube äußert. Background?
 
Google Dr. Ian Cutress.
ich kenne Cutress, aber halt nicht "SiVife" und ein Video eine Kurzfassung in einem schriftlichen Diskussionsforum zu bringen ist relativ sinnbefreit
Ein geschriebener Artikel den man lesen und zitieren kann etwa, wär hier sinnvoller:

 
Zuletzt bearbeitet:
SiFive galt als einer der großen Hoffnungsträger rund um die "Entwicklung" von Risk V. Das man jetzt einen großen Teil der Mitarbeiter aus der Entwicklung "freigesetzt" hat. Und sich auf die Umsetzung von "Kundenanfragen" beschränkt ist ein ziemlicher Paukenschlag.
ich kenne Cutress
Dann lerne dich entsprechend auszudrücken? Ansonsten hättest Du ja kaum seine "Kreditwürdigkeit als Source" mit deiner Ausdrucksweise in Frage gestellt.
Aha irgendein Mensch der seine Meinung

ein Video eine Kurzfassung in einem schriftlichen Diskussionsforum zu bringen ist relativ sinnbefreit
Das ist mit Sicherheit Ansichtssache. Die deine will ich dir nicht nehmen.

Hab einen schön Tag noch.
 
Dann lerne dich entsprechend auszudrücken? Ansonsten hättest Du ja kaum seine "Kreditwürdigkeit als Source" mit deiner Ausdrucksweise in Frage gestellt.
ich finde es halt ganz schwierig irgendwelche Architektur/Marktanalysen oder ähnliches per Video zu konsumieren und habe auch gar nicht lange drauf geklickt und aus der Beschreibung war es auch nicht herauszulesen.
Die Glaubwürdigkeit deines Links hättest du ja auch eben so beschreiben können, dass Cutress hier seine Ansicht kundtut.
Nur ein Link ist mir halt dann zu wenig gewesen, sorry für die aufmüpfige Wortwahl
Hab einen schön Tag noch.
wünsche ich ebenso
 
SiFive sieht das nun anders. :(
Eingebundener Inhalt
An dieser Stelle findest du externe Inhalte von Youtube. Zum Schutz deiner persönlichen Daten werden externe Einbindungen erst angezeigt, wenn du dies durch Klick auf "Alle externen Inhalte laden" bestätigst: Ich bin damit einverstanden, dass mir externe Inhalte angezeigt werden. Damit werden personenbezogene Daten an Drittplattformen übermittelt.
Für mehr Informationen besuche die Datenschutz-Seite.
Jetzt kann man sich, günstig know how sichern ^_^.
 
Ich bin mir da grad nicht sicher ob ich das richtig verstehe, du meinst in einem modernen Kern mit modernen Verfahren sind bis 30% x86 exklusive Recheneinheiten (und Co?). Ich ging eher davon aus, dass das inzwischen ein verschwindend geringer Teil ist und der Rest recht allgemein funktioniert.

10 bis 15 Prozent ist der Flächenbedarf der Decoder-Einheit und zugehöriger Speicher im Inneren aktueller AMD- und Intel-Kernen. Da dieser Teil "nur" dazu dient, x86 in möglichst optimaler Weise auf ein internes RISC-Format zu übertragen, dürfte er bei ARM (und RISC-V) ersatzlos fehlen. Weitere 15 bis 30 Prozent des Kerns gehen für Out of Order drauf, also Sprungvorhersage, Scheduling, Queing, diverse zugehörige Zwischenspeicher und Puffer, etc.. Eine genaue Angabe ist schwer möglich, da vor allem die Load-/Store-Funktionalität ziemlich verteilt ist. ARM-Kerne arbeiten zwar auch überwiegend OoO, aber da die Laufzeit der simplen RISC-Befehle kürzer ist, sollten sie für eine vergleichbare Auslastung weniger Befehle in flight haben und weniger Wartepositionen benötigen – ein Programm kann eben nicht unerwartet einen noch zu decodierenden Befehl aufrufen oder eine komplexe Sprunganweisung triggern, wenn es gar keine zu decodierenden oder komplexe Befehle gibt. Folglich könnte ein ARM-Kern entweder eine deutlich bessere Auslastung seiner Recheneinheiten bei gleichem Flächenverbrauch erzielen oder aber die Auslastung aktuelle x86-Designs mit einem geringeren Transistorbudget für OoO-Hilfseinheiten. Wie groß das Einsparpotenzial jenseits des Decoders tatsächlich ist, kann ich aber nur raten – deswegen die sehr große Spanne.

(Alle Flächenangeben relativ zum eigentlichen Rechenkern. Also ohne L2, L3 und externe Anbindung. Der Rest der CPU hat natürlich eine vielfach größere Fläche, aber deren Anteil am Stromverbrauch unter Volllast ist vergleichsweise klein – und der Bedarf daran wäre bei einer ARM-CPU gleicher Leistungsklasse ohnehin gleich groß.)
 
10 bis 15 Prozent ist der Flächenbedarf der Decoder-Einheit und zugehöriger Speicher im Inneren aktueller AMD- und Intel-Kernen.
das ist interessant, danke. Ich dachte nicht, dass das weiter so mitwächst (bzw. nicht schrumpft). Denn diese Zahl kenn ich aus P4 Zeiten und ich bin davon ausgegangen, dass dieser Teil der CPU nicht bzw. kaum weiterentwickelt werden muss und daher immer schrumpft, oder ist das ähnlich wie bei IO, dass es nicht ge"shrinked" werden kann
Weitere 15 bis 30 Prozent des Kerns gehen für Out of Order drauf, also Sprungvorhersage, Scheduling, Queing, diverse zugehörige Zwischenspeicher und Puffer, etc.. Eine genaue Angabe ist schwer möglich, da vor allem die Load-/Store-Funktionalität ziemlich verteilt ist.
aber OoO hat ja jetzt nichts mit x86 zu tun, oder sehe ich das falsch. Ob ich jetzt eine in Order oder Out of Order ISA entwerfe, ist ja eine Designentscheidung. Außer es ist so, dass bei x86 eine OoO ISA quasi verpflichtet. Ich meine mich erinnern zu können, dass Intel es 1-2x mit In-Order probiert hat (originaler Atom), und grandios gescheitert ist - ich dachte aber nicht, dass das an x86 liegt
ARM-Kerne arbeiten zwar auch überwiegend OoO, aber da die Laufzeit der simplen RISC-Befehle kürzer ist, sollten sie für eine vergleichbare Auslastung weniger Befehle in flight haben und weniger Wartepositionen benötigen – ein Programm kann eben nicht unerwartet einen noch zu decodierenden Befehl aufrufen oder eine komplexe Sprunganweisung triggern, wenn es gar keine zu decodierenden oder komplexe Befehle gibt. Folglich könnte ein ARM-Kern entweder eine deutlich bessere Auslastung seiner Recheneinheiten bei gleichem Flächenverbrauch erzielen oder aber die Auslastung aktuelle x86-Designs mit einem geringeren Transistorbudget für OoO-Hilfseinheiten. Wie groß das Einsparpotenzial jenseits des Decoders tatsächlich ist, kann ich aber nur raten – deswegen die sehr große Spanne.
hmm ok. Versteh ich leider nur zum Teil, weil du weiter oben ja angedeutet hast, dass x86 gerade wegen der guten Auslastung der Rechenwerke geeignet ist. Vielleicht habe ich das falsch verstanden.
(Alle Flächenangeben relativ zum eigentlichen Rechenkern. Also ohne L2, L3 und externe Anbindung. Der Rest der CPU hat natürlich eine vielfach größere Fläche, aber deren Anteil am Stromverbrauch unter Volllast ist vergleichsweise klein – und der Bedarf daran wäre bei einer ARM-CPU gleicher Leistungsklasse ohnehin gleich groß.)
Ja, ich war auch wenig klar in meiner Formulierung: ich ging nicht vom reinen x86 Kern aus, sondern von der ganzen CPU.
Aber es stimmt schon: macht natürlich auch nur wenig Sinn Cache hier ranzuziehen. IO und Co vielleicht noch eher.
 
Die Decoder an sich lassen sich genauso gut verkleinern wie auch normale Rechenwerke. Aber genau wie diese werden sie immer mächtiger – Netburst hatte [nachguck] scheinbar nur eine einzige Decoder-Pipeline und sich sonst auf seinen Micro-Op-Cache verlassen, um vier Ausführungseinheiten auszulasten (sportlich, sportlich). Bei Alder Lake sind es selbst für jeden E-Kern zwei Decoder mit drei Pipelines, zusätzlich zum Cache. Außerdem werden Decodereinheiten an sich um so komplexer, je größer der Befehlssatz wird – von SSE2 bis AVX2 ist eine ganze Menge hinzugekommen. Eine relativ zu den Ausführungseinheiten konstante Größe ist also plausibel. Was passiert, wenn man Decoderressourcen relativ zum Rechenwerk einsparen möchte, haben ja Bulldozer und Piledriver mit einem Decoder je Modul bewiesen – erst als es mit Steamroller einen Decoder pro Int-Kern gab, konnten AMDs APUs im angestrebten Low-End-Segment austeilen.

Out of Order an sich ist unabhängig von der Architektur. Alle x86-Intel-Prozessoren bis einschließlich der Sockel-7-Pentiums waren in Order und danach noch einmal die erste Atom-Architektur sowie darauf aufbauend Xeon Phi. Ich schätze mal, die für die IME verwendeten Kerne im PCH sind es bis heute (aber die sind praktisch nicht dokumentiert). Bei AMD müsste es bis einschließlich K5 gewesen sein, über Geode und die anderen Mitbewerber fehlt mir aber gerade der Überblick. Umgekehrt sind alle leistungsfähigeren ARM-Kerne OoO. Aber: Der Aufwand, der für effektiven OoO-Betrieb nötig ist, hängt von der Komplexität des Chipsatzes ab.

Bei RISC sieht die Spungvorhersage direkt im Programmcode, was als nächstes kommen könnte und jede RISC-Berechnung liefert ein Endergebnis. Bei CISC-to-RISC muss man im Front-End die Decoding-Verzögerung einplanen und entsprechend weiter vorausgucken; die Sortierung im Back-End muss Zwischenergebnisse zurück an den Anfang leiten und prüfen, ob bis zu einem CISC-Retirement noch andere RISC-Micro-Ops abgewartet werden müssen. Das alles braucht auch mehr Zeit, womit das Zeitfenster von einem CISC-Befehl bis zum nächsten, der darauf aufbauen darf, noch größer wird. Um Leerlauf zu vermeiden muss eine OoO-CISC-to-RISC-CPU also mehr Rechenaufgaben insgesamt im Blick behalten als ein reine OoO-RISC-Design. Ich weiß, wie gesagt, nicht, wie viele Transistoren das genau kostet. Aber in aller Regel gilt in der Halbleitertechnik: Klingt es kompliziert? Dann ist die Implementierung kompliziert².

Umgekehrt gibt diese Komplexität den CPU-Entwicklern aber auch Ansatzpunkte für Verbesserungen. Wenn Front- und Backend den Ansprüchen gerecht werden, können sie den Berechnungsablauf optimal für die vorhandenen Pipelines koordinieren. Bei RISC dagegen wird das dem Compiler oder gar dem Entwickler überlassen. Optimieren die sauber, wäre das Programm genauso flüssig wie beim perfekten CISC-to-RISC ablaufen – aber noch nicht zwingend schneller, denn der Programmcode ist Kern-ferner gespeichert als Microcode. Ich schätze mal, dass die langsameren Zugriffe darauf mit ein Grund sind, warum x86 bei schlecht parallelisierbaren Code bis heute ungeschlagen bleibt, obwohl Sprungvorhersage & Co bei AMD und Intel natürlich auch nicht perfekt arbeiten und händisch optimierter ARM-Code somit einen Vorteil in der Programm-Logik haben kann. Die Regel dürfte aber mit hoher Wahrscheinlichkeit das Gegenteil sein: Niemand programmiert so nah am Silizium, die Möglichkeiten eines offline arbeitenden Compilers gegenüber einer just-in-time-Sprungvorhersage haben auch nicht unendlich viel Potenzial und umgekehrt kennt niemand AMD- und Intel-Kerne so gut, wie AMD- respektive Intel-Entwickler. So passen die dekodierten Micro-Ops in einer x86-CPU dann doch wieder besser zu den Recheneinheiten, als bei einem nativen ARM-Kern, wo der Entwickler eigentlich alles direkt unter Kontrolle hat.
 
"auf der möglichst viel Anwendersoftware läuft"
!=
"33 Jahre alter 386er, den UMC mal in Kooperation mit ALI in einen Controller gepackt hat, der dadurch Teil des ULI-Portfolios wurde, welches Nvidia später komplett übernahm"
:-P
 
Ich finde das ja ganz nett was ihr hier so diskutiert. Nur ich sehe da ganz andere Problem. Weil bevor eine Software auf ARM optimiert werden kann muss es mal diese Software geben.
Denn die tollste CPU ist nutzlos ohne Software. Das heißt die Softwaren Hersteller müssen sehr schnell die Software für die ARM anbieten. Da wird es aber eine Übergangszeit geben. Genau in der Zeit wird man wenig bis gar keine optimierte Software für ARM finden. Weil die Software für x86 und ARM bereithalten müssen. Da werden die keinen Bock haben, kein Geld oder Reserven zum Anpassen der Software.

Das hat damals als Apple von PowerCPU aus Intel umgestiegen ist eine Zeit gedauert. Nur geht das in der Apple Welt schneller. Nur Apple baut Apple Computer. Daher kann sich jeder drauf verlassen das ist jetzt die CPU der Zukunft. Das andere Apple USER machen so einen Umstieg schneller mit. Im Gegensatz dazu sind Windows USER Jammer, die ständig was zum Aussetzen haben.

Wenn man denkt die PC-Welt soll auf ARM umsteigen, wird man mit den damit leben müssen das es eben Seine Zeit dauert, bis das alles mal richtig läuft.
Ich würde es mir zwar Wünschen das einen Umstieg gibt, aber ob es gelingt? Die PC-Welt ist halt auch um einiges komplexer als die Apple Welt.
 
Zurück