News HC1: Effizienz-Monster soll Nvidia ohne Speicher deklassieren

Interpretiere ich das als Renaissance von Röhrenschaltungen und Kernspeicher?
Weiß ich nicht. ;)
Aber ich meine da kommen schon hauptsächlich Transistoren zum Einsatz. Und Speicher braucht man eigentlich kaum. Eigentlich nur, um die Eingangs- und Ausgangswerte vor den DACs bzw. nach den ADCs zu speichern.
 
Naja, wenn HBM drei mal so teuer ist wie "normaler" DRAM, ist SRAM, aus dem FPGAs ja im Endeffekt hauptsächlich bestehen, schon nur noch etwas mehr als doppelt so teuer. So viel höher müsste die Effizienz dann auch nicht mehr sein, damit sich das lohnt. Könnte halt sein, dass man das nicht in einen Chip bekommt, könnte aber eben halt auch sein, dass man das gar nicht muss.

Ich denke mal, dass man keine Speicherzellen für die Gewichte braucht, wenn die fix sind. Nur noch Leitungen zur Versorgungsspannung und Masse.

Ich glaube nicht, dass sie die Gewichtungen fest verdrahten können. Dann hätten sie nicht nur den Funktionsablauf des Modells fest verdrahtet, sondern auch dessen komplettes Training. Also sowohl den Stil der Antworten als auch deren kompletten Inhalt: Nachlernen unmöglich, Anpassung an bestimmte Einsatzbedingungen unmöglich. Und damit letztlich genau der firmenspezifische KI-Einsatz, für deren Ausführung sich jemand solche Beschleuniger kaufen könnte.

Bezüglich einer Kombination aus FPGA und externem Speicher: Das hat meinem Wissen nach noch niemand versucht. Ich würde mal erwarten, dass es aufgrund der sehr einfachen, aber extrem zahlreichen Berechnungen bei KIs keine Vorteile gegenüber herkömmlichen Beschleunigern bringt – bei einer FP4-Multiplikation gibt es nicht so wahnsinnig viel Optimierungspotenzial. Dafür wird man um so schneller durch die Zugriffswege zum Speicher limitiert und genau da fahren herkömmliche GPGPUs einiges an spezialisierter Technik auf, die ein FPGA mehr schlecht als recht nachahmen müsste.

Taalas Ansatz ist, soweit ich aus den spärlichen Informationen herauslese, ein grundlegend anderer: Anstatt große Mengen Daten ständig aus einem externen Speicher in den Chip zu schaufeln, nur um dann fast gar nichts damit zu machen und wieder zurückzuschreiben, legen sie alle Informationen intern ab. Mutmaßlich in verteilten, eng mit den Recheneinheiten assoziierten Speicherblöckchen, wobei der gesamte Aufbau die Struktur des Modells nachahmt. "Datenfragment ist bereits an der einzigen Stelle, an der es gebraucht wird, und das dauerhaft" ist ein viel (energie-)effizienterer Ansatz als "Daten können schnellstmöglich an jede beliebige Stelle transportiert werden", aber eben nichts für FPGAs. Und eben verdammt schwer auf große Modelle zu skalieren, weil DRAM-Prozesse nicht mit leistungsfähiger Logik kompatibel sind, man also auf schweine teuren SRAM setzen und zusätzlich auch noch die Penalty großer Monolithen schlucken muss.

8B, dass Taalas nach eigenen Aussagen eben auch nur mit ~geviertelter Genauigkeit implementiert, ist gerade einmal ein Fünfzigstell des Maximalausbaus von Llama 3.1 und Llama 3.1 wiederum war 2024 ein brauchbares, aber nicht überragendes Modell. ChatGPT wird aktuell auf 1 bis 2 Billionen Parameter geschätzt, also Faktor 1.000 über dem von Taalas realisierten, schon sehr großen Chip. Wenn den Aufbau eines Modells in Hardware widerspiegelt gibt es vermutlich auch keine Möglichkeit, durch Aufteilung in spezialisierte Experten Speicherplatz einzusparen, da man eben nicht einfach einen anderen Modellteil laden kann.

Funfact: ChatGPT weiß nicht, wie ChatGPT läuft, sondern muss im Web nach externen Schätzungen suchen. Wir sind wohl doch noch ein Stück von künstlichem Bewusstsein entfernt. :-)

Eventuell werden auch Analog-Chips interessant werden.

Bei der Ungenauigkeit und Fehlerrate, die derzeit bei KIs akzeptiert wird: Definitiv. Es arbeiten auch schon viele Start-Ups daran. Aber da wird es dann richtig schwierig mit der Programmierbarkeit.
 
Ich glaube nicht, dass sie die Gewichtungen fest verdrahten können. Dann hätten sie nicht nur den Funktionsablauf des Modells fest verdrahtet, sondern auch dessen komplettes Training. Also sowohl den Stil der Antworten als auch deren kompletten Inhalt: Nachlernen unmöglich, Anpassung an bestimmte Einsatzbedingungen unmöglich. Und damit letztlich genau der firmenspezifische KI-Einsatz, für deren Ausführung sich jemand solche Beschleuniger kaufen könnte.
Naja, wie du ja selbst angemerkt hast, ist die Alternative quasi ausgeschlossen. Es wird wohl einen Kontext-Cache geben, ansonsten wird bei KIs ja meines Wissens nach eh anhand der Gewichte gewichtet gewürfelt. Für eine Varianz bei der Ausgabe, müssten sich die Gewichte also nicht ändern. Dass ein Nachlernen unmöglich ist, ist ja ein implizierter Trade-Off. Was spezifische Einsatzgebiete angeht, ist das Produkt, das sie eigentlich anbieten wollen, eine möglichst kurze Lieferkette für Chips an, die angepasste Modelle abbilden. Der Chip aus dem Artikel ist ja quasi nur eine Tech-Demo.
Bezüglich einer Kombination aus FPGA und externem Speicher:
Ich meinte keine Kombination aus FPGAs und externem Speicher, sondern FPGA-internen Speicher statt externem Speicher.
Und eben verdammt schwer auf große Modelle zu skalieren, weil DRAM-Prozesse nicht mit leistungsfähiger Logik kompatibel sind, man also auf schweine teuren SRAM setzen und zusätzlich auch noch die Penalty großer Monolithen schlucken muss.
Wie gesagt, soo schweineteuer ist SRAM im Vergleich zu HBM schätzungsweise ja nicht. Aber ja, am Ende steht und fällt das ganze mit der Frage, ob man so einen Aufbau monolithisch betreiben muss.
8B, dass Taalas nach eigenen Aussagen eben auch nur mit ~geviertelter Genauigkeit implementiert, ist gerade einmal ein Fünfzigstell des Maximalausbaus von Llama 3.1 und Llama 3.1 wiederum war 2024 ein brauchbares, aber nicht überragendes Modell. ChatGPT wird aktuell auf 1 bis 2 Billionen Parameter geschätzt, also Faktor 1.000 über dem von Taalas realisierten, schon sehr großen Chip. Wenn den Aufbau eines Modells in Hardware widerspiegelt gibt es vermutlich auch keine Möglichkeit, durch Aufteilung in spezialisierte Experten Speicherplatz einzusparen, da man eben nicht einfach einen anderen Modellteil laden kann.
Naja, man könnte halt entsprechende Chips fertigen, die nur die Expertendaten beinhalten. Ich weiß aber nicht, ob man jetzt einen großen Chip genommen hat, weil man musste oder weil das für einen ersten Test einfach einfacher war. Damit steht und fällt ja wie gesagt einiges.
Funfact: ChatGPT weiß nicht, wie ChatGPT läuft, sondern muss im Web nach externen Schätzungen suchen. Wir sind wohl doch noch ein Stück von künstlichem Bewusstsein entfernt. :-)
Nie vergessen, dass LLMs eigentlich nichts anderes machen, als das nächste, passende Wort zu raten. Erste Tests mit visuellen Aufgaben, die schon Kleinkinder ziemlich problemlos lösen können, stellen LLMs vor riesige Hürden. Stichwort BabyVision-Benchmark.
Bei der Ungenauigkeit und Fehlerrate, die derzeit bei KIs akzeptiert wird: Definitiv. Es arbeiten auch schon viele Start-Ups daran. Aber da wird es dann richtig schwierig mit der Programmierbarkeit.
Ja, im Vergleich mit FP4 sowieso, aber auch allgemein. Die Genauigkeit ist wohl typischerweise zwischen drei und vier Dezimalstellen, also vergleichbar mit 10 bis 13 Bit, also auf einem Niveau mit FP16 (10+1 Bit Mantisse), dafür bleiben aber Rundungsfehler aus, die sich in vielen digitalalgorithmischen Ansätzen schon gehörig aufsummieren können. Dafür wiederum hat man bei Schaltungen mit langen Wegen irgendwann Dämpfungseffekte.
 
Zurück