News Ryzen AI Halo: AMDs zeigt den Mini-PC mit 128 GiB RAM - Release schon bald?

PCGH-Redaktion

Kommentar-System
Teammitglied
AMD hat den im Januar angekündigten Mini-PC vom Typ "Ryzen AI Halo" auf einem KI-Event ausgestellt. Dadurch sind nun eigene weitere Details bekannt - beispielsweise ist der RAM inzwischen offenbar fix festgelegt.

Was sagt die PCGH-X-Community zu Ryzen AI Halo: AMDs zeigt den Mini-PC mit 128 GiB RAM - Release schon bald?

Bitte beachten: Thema dieses Kommentar-Threads ist der Inhalt der Meldung. Kritik und allgemeine Fragen zu Online-Artikeln von PC Games Hardware werden hier gemäß der Forenregeln ohne Nachfrage entfernt, sie sind im Feedback-Thread besser aufgehoben.
 
Ist ein interessantes technisches Produkt.
Nur den Markt dafür sehe ich einfach nicht:
wer nur etwas mehr Performance möchte, kauft sich wohl um das Geld einen Tower mit GPU drin.
 
Und der es kompakt und klein haben will ,hat meistens eh keine so hohen Anforderungen. Da tut es auch ein kleinerer Mini PC auch. Also für das zuviel und das andere zu wenig Leistung. Also nicht optimal.
 
Ich nutze selbst ein System mit AMD Ryzen AI Max+ 395 und 128 GiB (Beelink GTR395) gemeinsam nutzbarem RAM und das ist bei LLMs ein echter Vorteil gegenüber klassischen Setups mit dedizierter GPU auch wenn diese bis zu 32 GB VRAM haben (eher weniger)
Ich hatte nicht den Platz, mir das nächste Arbeitsgerät hinzustellen, dass klobige Desktop Ausmaße hat. Der Rechner steht klein und unauffällig neben meinem Monitor.

Der Hauptgrund ist genau der Unified Memory CPU, iGPU greifen auf denselben großen Speicherpool zu. Dadurch kann ich deutlich größere Modelle komplett im Speicher halten, ohne sie aufteilen oder ständig nachladen zu müssen. Genau das bremst viele Systeme mit „nur“ 32 GB VRAM (eher weniger) aus, lässt nur kleinere Kontexte zu ohne ständig aufwendig umzulagern was sehr viel Zeit kostet.
Auch wenn Kollegen starke Grafikkarten haben, stoßen sie bei größeren Workloads zügig an Limits. Ich kann dagegen größere LLMs fahren und flexibler arbeiten, weil mir effektiv viel mehr nutzbarer Speicher und damit Platz für Kontext zur Verfügung steht und das macht in der Praxis einen signifikanten Unterschied.

Und wenn man erst durch das grauenhafte UEFI gestiegen ist, ist er bei voller Workload auch leise.

Wenn ich bei unseren Systemen in der CoLo bin, sehe ich bei unseren benachbarten Schränken das andere Firmen auch die DGX Spark Systeme von NVIDIA zum Einsatz bringen. Der Markt existiert also offensichtlich.
 
Ich denke eher AMD bringt das Teil jetzt noch als eigene Konkurrenz zu nVidia auf den Markt, damit man dann direkt mit dem Zen 6 Nachfolger samt RDNA5 aka Medusa Halo einen Nachfolger auf der CES bringen kann, in Schlagweite zu DGX und Konsorten. Also quasi damit man was aus dem eigenen Haus hat und die "Mega-APU" unter einem offiziellen Label selbst vermarkten kann als direkten Gegenspieler und nicht als reinen Chip für Dritthersteller.

Strix Halo oder der Nachfolger aka Medusa könnte so als Mini PC mit 32/48/64+ GB eine dekadente Steam Machine abbilden mit 24 Zen 6 Kernen samt 48 RDNA5 CUs und gemeinsamen Speicherpool.
 
Das Produkt ist ein klarer Fingerzeig an alle AMD OEMs. Es ist ein Produkt mit einer hohen Marge, dessen preis sich nicht danach richtet was der Chip in der Fertigung kostet, sondern was Nvidia für eine GPU aufruft die vergleichbar große LLMs laden kann.

Wir sprechen von einem Chip mit 300mm² Größe. Zum Vergleich, eine 9070XT hat 350mm² und geht für 650€ über den Tisch. Ein Nvidia Spark geht für 5000€ über den Tisch. Selbst bei 2000€ für ein 128GB RAM Kit, hat AMD immer noch 2500€ Luft für reine Gewinnmarge.

Bis die KI Nachfrage verschwindet, hat AMD die Kapazität das Produkt weiter zu fertigen und schiebt es als Steam-Machine zum Kunden.

Wir sehen hier nicht nur ein Inselprodukt für KI, sondern ein Produkt mit dem AMD langfristig die Chance hat einen Teil des marktes einzufangen, ohne den Kuchen der Gewinne mit den OEMs teilen zu müssen.
 
Ich nutze selbst ein System mit AMD Ryzen AI Max+ 395 und 128 GiB (Beelink GTR395) gemeinsam nutzbarem RAM und das ist bei LLMs ein echter Vorteil gegenüber klassischen Setups mit dedizierter GPU auch wenn diese bis zu 32 GB VRAM haben (eher weniger)

Auch wenn Kollegen starke Grafikkarten haben, stoßen sie bei größeren Workloads zügig an Limits. Ich kann dagegen größere LLMs fahren und flexibler arbeiten, weil mir effektiv viel mehr nutzbarer Speicher und damit Platz für Kontext zur Verfügung steht und das macht in der Praxis einen signifikanten Unterschied.
Klingt für mich auch interessant, ehrlich gesagt. Dann könnte man drüber nachdenken, lokal das LLM laufen zu lassen. Qwen hat da ja genug Ableger, die fähig sind. Schon cool. :) Bisher nutze ich auch nur die Cloud-Versionen.
 
Geräte mit genau diesen Spezifikationen gibt es schon einige, ich habe selbst eines von Corsair. Mir ist daher nicht ganz klar, was AMD damit bezweckt, selbst ein solches Gerät auf den Markt zu bringen. Aber wenn es hilft, ROCm besser zu machen, soll es mir recht sein. Generell sind das schon Geräte, mit denen man wunderbar nerdig herumspielen kann. Egal ob man ein 80b LLM laufen lässt oder mit ComfyUI Katzenvideos generiert, dem Spieltrieb sind kaum Grenzen gesetzt.
 
Klingt für mich auch interessant, ehrlich gesagt. Dann könnte man drüber nachdenken, lokal das LLM laufen zu lassen. Qwen hat da ja genug Ableger, die fähig sind. Schon cool. :) Bisher nutze ich auch nur die Cloud-Versionen.
Ja, ich nutze es hauptsächlich für die Analyse von komplexen Daten, die keinesfalls die Firma verlassen dürfen. Auch wenn wir in der Firma Verträge mit allen großen Cloud AI Anbietern hat die Daten nicht zum Training zu verwenden, ist das Risiko immer noch da. Denn am Ende ist die Cloud nichts anderes als der Computer von jemand anderem, den man nicht kennt.

Und es ist immer schön, sich über Kosten keine Gedanken mehr machen zu müssen. Auch wenn man an einem Problem eine Woche hängt, muss man keine Angst haben, dass die Kosten für die Token einen die Haare vom Kopf fressen und das Budget sprengen.
Was am Ende bleibt, ist Stromverbrauch und der kommt aus der PV Anlage.

Ein Kollege und ich hatten neulich zehn Mac Studio mit jeweils 512 GB RAM im Rechenzentrum verbaut. Einige davon würde ich mal gerne via RDMA zusammenschließen und als einen laufen lassen. Leider sind diese Geräte an andere Projekte gebunden 🫠 Dann wäre das größte Deepseek Modell mit 1.6T Parametern keine Hürde mehr.
 
Zuletzt bearbeitet:
Klingt für mich auch interessant, ehrlich gesagt. Dann könnte man drüber nachdenken, lokal das LLM laufen zu lassen. Qwen hat da ja genug Ableger, die fähig sind. Schon cool. :) Bisher nutze ich auch nur die Cloud-Versionen.
Die frontier Modelle sind trotzdem noch um einiges voraus. vor allem zb bei komplexeren Tasks wie refaktoring über größere Code Basen kacken die free Modelle alle ab. Mit dem Preis kann man sich 3 Jahre lang ein 100eur Claude/Codex abo leisten. Bekommt auch immer Modell Updates und werden auch viel schneller ausgeführt.

Diese Maschinen sind zum Entwickeln für KI Modelle gedacht und nicht um diese auszuführen. Ki/video/image Modelle laufen auch auf 24/32gb GPUs gut und vor allem schneller
zehn Mac Studio mit jeweils 512 GB RAM im Rechenzentrum
Wer verbaut sowas in Rechenzentren und wie sieht das aus, gibt's da 19" mount kits oder wie? :D
 
Die frontier Modelle sind trotzdem noch um einiges voraus. vor allem zb bei komplexeren Tasks wie refaktoring über größere Code Basen kacken die free Modelle alle ab. Mit dem Preis kann man sich 3 Jahre lang ein 100eur Claude/Codex abo leisten. Bekommt auch immer Modell Updates und werden auch viel schneller ausgeführt.

Diese Maschinen sind zum Entwickeln für KI Modelle gedacht und nicht um diese auszuführen. Ki/video/image Modelle laufen auch auf 24/32gb GPUs gut und vor allem schneller

Wer verbaut sowas in Rechenzentren und wie sieht das aus, gibt's da 19" mount kits oder wie? :D
Wir haben dort nichts von der Stange verwendet sondern eine Lösung vorher designt, gebaut und verbaut da es schlicht nichts am Markt gab das mit unseren etwas speziellen Anforderungen gepasst hätte. Optimiert auf minimalen Platzverbrauch. Funktioniert optimal bei niedrigen Kosten für den Bau, bei gute Wartbarkeit. Also Software kommt tart.run zum Einsatz der alles orchestriert
 
Die frontier Modelle sind trotzdem noch um einiges voraus. vor allem zb bei komplexeren Tasks wie refaktoring über größere Code Basen kacken die free Modelle alle ab. Mit dem Preis kann man sich 3 Jahre lang ein 100eur Claude/Codex abo leisten. Bekommt auch immer Modell Updates und werden auch viel schneller ausgeführt.

Diese Maschinen sind zum Entwickeln für KI Modelle gedacht und nicht um diese auszuführen. Ki/video/image Modelle laufen auch auf 24/32gb GPUs gut und vor allem schneller

Wer verbaut sowas in Rechenzentren und wie sieht das aus, gibt's da 19" mount kits oder wie? :D

Erster Suchtreffer:

Früher hat Apple den Mac Pro sogar selbst als Rack angeboten.
 
Zurück