Sonnenkoenig
Gesperrt
Nein, falsch. Was für die höhere FP32-Leistung verantwortlich ist, habe ich bereits geschrieben. Das hat weder etwas mit Tensor Cores, noch mit Matrix Multiplikation zu tun.Ähm... dir sind die Besonderheiten der GV100 aber schon bekannt?
Bei GV100 gibt es 32 "thread warps" - Warteschlangen - mit eigenem Scheduler. Dazu kommt noch, dass die Tensor Kerne auch FP32 Matrix Multiplikation beherrschen.
Beides dürfte für einen Großteil der verbesserten Rechenleistung verantwortlich sein.
Wie sagt man doch so schön? Wenn man keine Ahnung hat...Denn Seit diversen Jahren gibt es bei IPC für "normale" FP 32 Rechenwerke keine Verbesserungen mehr. Es geht lediglich noch über den "Uncore" und spezialisierte Rechenwerke für Sonderfunktionen - wie eben Tensor Kerne.
Zitat aus dem Volta-Whitepaper:
New Streaming Multiprocessor (SM) Architecture Optimized for Deep Learning Volta features a major new redesign of the SM processor architecture that is at the center of the GPU. The new Volta SM is 50% more energy efficient than the previous generation Pascal design, enabling major boosts in FP32 and FP64 performance in the same power envelope.
IPC hat übrigens gar nichts mit Perf/Watt zu tun. Hier solltest du dir dringend nochmal ein paar Grundlagen anlesen, bevor du dich weiterhin mit Unwissen blamierst.