Es gibt keine sp-äquivalenten dp-Flops. top500.org gibt die Fließkommaoperationen pro Sekunde an, die im Linpack-Benchmark bei Nutzung von 64-Bit-Datenformaten (dp) erreicht werden. Als Einzeloperation werden dabei Multiplikationen und Additionen gewertet. Ein FMA wird als zwei Operationen angerechnet, da es gleichzeitig eine Addition und eine Multiplikation realisiert.
Bei dem Punkt mit den unterstützenden CPUs, die zur Rechenleistung beitragen, könntest du natürlich recht haben, ich hab mich jetzt noch nicht zur Infrastruktur des Titan schlau gemacht.
/EDIT: Die Pressemitteilung des
Oak Ridge National Laboratory gibt noch interessante Daten her. So setzt man CPU-seitig auf 16-Core-Varianten und das System soll insgesamt auf 299,008 cores kommen. Man muss dabei beachten, dass bei top500.org ein Fermi je nach Ausbaustufe mit 14 bis 16 Cores angerechnet wird, sprich die Streaming-Multiprozessoren und nicht die CUDA-Cores werden als Cores gezählt, nicht die CUDA-Cores.
Wenn ich jetzt rechne, dann sehe ich, dass 299.008 Cores auf 18.000 GPUs nicht mehr als 16 Streaming-Multiprozessoren pro Kepler-GPU bedeuten, wahrscheinlich sogar eher 15 SMs, damit auch die CPUs vernünftig ins Core-Budget passen. Eigentlich rechnet man ja bei Kepler mit einer Verdopplung gegenüber Fermi, also 32 Streaming-Multiprozessoren. Offenbar wird die gestiegene Rechenleistung aber auf anderem Weg erreicht, d.h. entweder mehr CUDA-Cores pro Streaming-Multiprozessor oder deutlich höhere Taktraten. Letzteres würde ich im HPC-Bereich ausschließen, da hohe Taktraten nur unnötig den Energieverbrauch und den Kühlungsaufwand erhöhen. Da investiert man lieber in breit angelegte, aber relativ niedrig taktende Chips.