SSE ist vom Prinzip her nicht extrem viel anders, nur eben eine sehr viel frühere Version. Von den Befehlssätzen gibts ja zig (MMX, SSE1-4, AVX, AES, FMA, CLMUL,...) die allesamt dafür da sind, spezielle Rechenoperationen die häufig vorkommen (je nachdem was man mit dem PC macht) stark zu beschleunigen indem man die Hardware selbst darauf auslegt.
Am einfachsten zu erkennen am AES-Beispiel. Hier wird die gängigste Verschlüsselungsroutine in Hardware umgesetzt (also grob gesagt ein Teil der CPU gebaut der nur genau das kann, das aber besonders schnell) und ist damit um grob den Faktor 10 schneller als wenn der normale x86-Teil der CPU die Verschlüsselung durchführen müsste.
Genau so funktionieren die anderen Erweiterungen auch, nur sind die Anwendungsfälle spezieller. Manche Anwendungen profitieren stark von solchen Registern, andere gar nicht. Bei Spielen ist es meist schwierig einen Nutzen aus neuen Instruktionen zu ziehen da Spiele keine "Standard-Rechenoperationen" sind die spezielle, komplexe Aufgaben ausführen, sprich kein Spiel der Welt muss besonders gut Primzahlen berechnen oder Finanzmathematik beherrschen. Alte Befehlssätze dagegen wie etwa MMX werden quasi durch die Bank unterstützt, einfach weil diese Befehlssätze weniger spezielle Dinge beschleunigen (etwa die Videodecodierung von MPEG) die auch in Spielen Verwendung finden. Dadurch dass MMX aber weniger spezialisiert ist als AES zum Beispiel ist auch der Leistungszuwachs viel kleiner, statt Faktor 10 geht man bei MMX von etwa Faktor 1,5 aus gegenüber der "normalen" x86-Berechnung (wobei es Einzelfälle gibt die auch mal 5x schneller werden können).