Schon mal was von SSE gehört? Dabei handelt es sich um einen erweiterten Befehlssatz, mit dem man acht 128-Bit breite Register in der CPU ansprechen kann. Mit SSE kannst du Vektor- und Matrixoperationen meist schneller durchführen, als wenn du die Berechnungen von der FPU durchführen lässt. Da die Register aber nur 128Bit groß sind kannst du entscheiden, ob du vier 32Bit floats oder nur zwei 64Bit double reinlädst. Wenn man double verwendet braucht man also offensichtlich doppelt so viele Rechenzyklen. Es gibt zwar mittlerweile auch AVX mit 256Bit aber auch da kannst du doppelt soviele floats reinladen wie doubles. Außerdem gibt es AVX erst seit 2011 mit der Sandy Bridge bzw. Bulldozer Architektur, wodurch die Legende gar nicht mal so alt sein kann. Will man double precision Operationen mit Hilfe von OpenCL auf der GPU berechnen, muss man sogar bei aktuellen Grafikkarten mit Leistungseinbußen rechnen.
Als Quelle füge ich mal diesen Benchmark ein:
AnandTech Portal | Floating point peak performance of Kaveri and other recent AMD and Intel chips
Ansonsten einfach mal ein bisschen über SSE informieren und selber damit rumprobieren.