Naja, wenn HBM drei mal so teuer ist wie "normaler" DRAM, ist SRAM, aus dem FPGAs ja im Endeffekt hauptsächlich bestehen, schon nur noch etwas mehr als doppelt so teuer. So viel höher müsste die Effizienz dann auch nicht mehr sein, damit sich das lohnt. Könnte halt sein, dass man das nicht in einen Chip bekommt, könnte aber eben halt auch sein, dass man das gar nicht muss.
Ich denke mal, dass man keine Speicherzellen für die Gewichte braucht, wenn die fix sind. Nur noch Leitungen zur Versorgungsspannung und Masse.
Ich glaube nicht, dass sie die Gewichtungen fest verdrahten können. Dann hätten sie nicht nur den Funktionsablauf des Modells fest verdrahtet, sondern auch dessen komplettes Training. Also sowohl den Stil der Antworten als auch deren kompletten Inhalt: Nachlernen unmöglich, Anpassung an bestimmte Einsatzbedingungen unmöglich. Und damit letztlich genau der firmenspezifische KI-Einsatz, für deren Ausführung sich jemand solche Beschleuniger kaufen könnte.
Bezüglich einer Kombination aus FPGA und externem Speicher: Das hat meinem Wissen nach noch niemand versucht. Ich würde mal erwarten, dass es aufgrund der sehr einfachen, aber extrem zahlreichen Berechnungen bei KIs keine Vorteile gegenüber herkömmlichen Beschleunigern bringt – bei einer FP4-Multiplikation gibt es nicht so wahnsinnig viel Optimierungspotenzial. Dafür wird man um so schneller durch die Zugriffswege zum Speicher limitiert und genau da fahren herkömmliche GPGPUs einiges an spezialisierter Technik auf, die ein FPGA mehr schlecht als recht nachahmen müsste.
Taalas Ansatz ist, soweit ich aus den spärlichen Informationen herauslese, ein grundlegend anderer: Anstatt große Mengen Daten ständig aus einem externen Speicher in den Chip zu schaufeln, nur um dann fast gar nichts damit zu machen und wieder zurückzuschreiben, legen sie alle Informationen intern ab. Mutmaßlich in verteilten, eng mit den Recheneinheiten assoziierten Speicherblöckchen, wobei der gesamte Aufbau die Struktur des Modells nachahmt. "Datenfragment ist bereits an der einzigen Stelle, an der es gebraucht wird, und das dauerhaft" ist ein viel (energie-)effizienterer Ansatz als "Daten können schnellstmöglich an jede beliebige Stelle transportiert werden", aber eben nichts für FPGAs. Und eben verdammt schwer auf große Modelle zu skalieren, weil DRAM-Prozesse nicht mit leistungsfähiger Logik kompatibel sind, man also auf schweine teuren SRAM setzen und zusätzlich auch noch die Penalty großer Monolithen schlucken muss.
8B, dass Taalas nach eigenen Aussagen eben auch nur mit ~geviertelter Genauigkeit implementiert, ist gerade einmal ein Fünfzigstell des Maximalausbaus von Llama 3.1 und Llama 3.1 wiederum
war 2024 ein brauchbares, aber nicht überragendes Modell. ChatGPT wird aktuell auf 1 bis 2 Billionen Parameter geschätzt, also Faktor 1.000 über dem von Taalas realisierten, schon sehr großen Chip. Wenn den Aufbau eines Modells in Hardware widerspiegelt gibt es vermutlich auch keine Möglichkeit, durch Aufteilung in spezialisierte Experten Speicherplatz einzusparen, da man eben nicht einfach einen anderen Modellteil laden kann.
Funfact: ChatGPT weiß nicht, wie ChatGPT läuft, sondern muss im Web nach externen Schätzungen suchen. Wir sind wohl doch noch ein Stück von künstlichem Bewusstsein entfernt.
Eventuell werden auch Analog-Chips interessant werden.
Bei der Ungenauigkeit und Fehlerrate, die derzeit bei KIs akzeptiert wird: Definitiv. Es arbeiten auch schon viele Start-Ups daran. Aber da wird es dann richtig schwierig mit der Programmierbarkeit.