Der Hauptunterschied zwischen INT8 und FP8 liegt in der Verteilung der darstellbaren Werte. Beide Formate können genau 256 verschiedene Zahlen abbilden. INT8 ist dabei linear quantisiert, das bedeutet, die Werte sind gleichmässig verteilt, zum Beispiel 0.25, 0.5, 0.75 usw. Jeder Schritt hat also den gleichen Abstand.
FP8 hingegen nutzt ein Gleitkommaformat. Dadurch sind die Werte nicht gleichmässig verteilt, sondern logarithmisch. In der Nähe von 0 gibt es viele fein abgestufte Werte, während die Abstände zu den Extremen hin grösser werden, also Richtung -1 und 1 deutlich gröber.
Für neuronale Netze ist das entscheidend, weil viele Aktivierungen und Gewichte nahe bei 0 liegen und weil Aktivierungsfunktionen oft gerade um 0 herum am steilsten sind. Kleine Änderungen in diesem Bereich haben also einen grossen Einfluss auf das Ergebnis. FP8 kann diese kleinen Unterschiede besser auflösen. Bei INT8 verlierst du schneller Informationen.