Und ich weiß nicht, wie man als technikvertrauter Mensch nicht sehen kann, welches Potenzial in KI steckt, Hype hin oder her.
Indem man damit beruflich arbeitet und die vielen Unzulänglichkeiten direkt erfährt. Was man in den Medien sieht sind vor allem Showcases von LLMs oder Dinge, die vor wenigen Jahren noch schlicht als "Machine Learning" vermarktet wurden. Und in passenden Einsatzszenarien kam man überraschend schnell zu sagen wir mal 80%igen Ergebnissen. Dass die generierten Bilder keine vernünftigen Hände/Finger haben, zum Beispiel zählt zu den fehlenden 20% bei Text2Image. Wenn man da auf 95% will ist das ein ordentlicher Aufwand. Und dann auf 97% nochmal so viel, etc. Für viele Anwendungsbereiche reicht das aber nicht, wenn du in ein Auto steigst, dass dich und deine Kinder Fahrt akzeptierst du nicht mal 99% Trefferquote in schwierigen Verkehrssituationen. Siehe Tesla, laut Musk wollten sie längst Level 5 autonomes Fahren erreicht haben. Und genauso wird es bei den meisten anderen Anwendungsbereichen, außer simplen oder ungefährlichen.
Denn LLMs skalieren nicht oder nur scheiße. Der Sprung der letzten Jahre ist durch die verfügbare Rechenpower passiert, damit wurden einige Probleme totgeworfen ("wir generieren einfach 50 Mal mal und schmeißen die 45 völlig miesen Ergebnisse weg"). Aber das ist nicht linear und selbst ordentlich mehr Rechenpower wird die momentanen Grenzen nicht fixen. Dazu kommt dass die Entscheidungen nicht begründet oder nachvollzogen werden können - für den Einsatz in wichtigen Bereichen ist das aber maßgeblich.
Und final ist Training teuer und unvorhersehbar. Stell dir vor du hast ein LLM für ein Gebiet, das ganz gut läuft, mit 97% Trefferquote (das wäre Weltklasse). Jetzt kommt ein Kunde oder die Öffentlichkeit und macht dich auf einen sehr problematischen Fehler aufmerksam. Was kannst du tun? Du kannst neu trainieren, bis im Modell genau der Fehler nicht mehr auftritt. Problem: das ist ziemlich teuer und du weißt nicht, ob das Modell nicht dafür auf einmal alte Sachen nicht mehr richtig macht oder andere neue Probleme dazukamen. Jetzt könnte man Tests schreiben um das zu verhindern, nur... wenn du die manuell von Experten machen lässt verlierst du jegliche Ersparnis und kannst die Experten eigentlich auch direkt gezielt funktionierende Algorithmen spezifisch für die Aufgabe schreiben lassen.
Also lassen wir doch einfach eine KI die KI testen. Tolle Idee, spart ja Zeit. Leider hat sich rausgestellt, dass das nicht funktioniert und sich eher die oben genannten Probleme dadurch immer weiter verstärken, oder die Leistung der KI immer weiter abnimmt.
Oder man lässt lauter Leute in Billiglohnländern ex post Filter schreiben, die unerwünschte Ergebnisse unterdrücken. Das wird schon gemacht, lässt sich aber systematisch (prompt injection) umgehen oder wird auch einfach durch kreative User massiv gebruteforced. Wenn ich auf ein Filtersystem oder einen Jugendlichen mit Zeit, der Motivation hat setzen soll, setze ich immer auf den Jugendlichen.
So oder so, die Grenzen von LLMs sind ziemlich deutlich. Natürlich wird da noch einiges gefunden werden um die Situation zu verbessern, aber wenn ein Problem NP-vollständig ist, dann ist es eben nicht in vernünftiger Zeit zu lösen, da kommt dann eben auch nicht irgendwann ein magischer Durchbruch durch Forschung.