Habt Ihr mal ein/oder zwei Links zu Audio-Interfaces? Ich kann mir so gar nichts unter so einem Interface vorstellen

Was kann so ein Interface bzw. wozu ist es nötig?
Ein Audiointerface ist technisch betrachtet nichts anderes als eine (externe) Soundkarte. Audiointerfaces sind aber primär für (professionelle) Audioproduktion mit einer DAW gebaut. Sie verfügen über hochwertigere Bauteile, zumeist mehrere XLR-Buchsen mit 48 V Phantomspeisung und regelbaren Vorverstärkern für Studiomikrofone sowie 6,3-mm-Klinkenanschlüsse z. B. für Musikinstrumente, und außerdem Ausgänge, an die sich dann z. B. Studiomonitore anschließen lassen (einer pro Buchse, bei entsprechender Anzahl sind damit auch Surround-Setups möglich), sowie potente Kopfhörerverstärker, die auch für hochohmige Kopfhörer genug Bumms haben. Auch lassen sich über die Protokolle, die sie verwenden, all diese Anschlüsse einzeln ansteuern (auch dazu unten mehr).
Das sind Lautsprecher die in der Theorie darauf optimiert sind im Nahfeldbereich einen sauberen Klang zu liefern.
Also perfekt passend zu der Situation: Lautsprecher auf oder neben Tisch und ausgerichtet auf dich in 1-2 Meter Abstand.
Das ist natürlich auch wieder komplett vom Lautsprecher abhängig aber grundsätzlich klingen die Dinger recht neutral [...]
Bei guten HiFi Boxen ist das natürlich nicht so "schlimm", aber auch da, ich möchte die Musik hören und nicht den Lautsprecher
Achtung bei „auf den Tisch“: Studiomonitore sollten sich idealerweise immer, zumindest näherungsweise, auf Ohrhöhe befinden. Stellt man sie direkt auf den Tisch, fängt man sich unweigerlich frühe Reflexionen durch den Tisch ein (vor allem im Tiefenbereich), die den Klang verfälschen. Man kann das abschwächen, indem man sie auf entsprechende
Schaumstoffunterlagen stellt, und einige Studiomonitore etwa von Genelec können so kalibriert werden, dass sie das kompensieren (bzw. haben einen Schalter dafür), aber ideal ist das nie. Besser auf
Monitorständer oder, sofern vorhanden, eine entsprechende Erhöhung auf dem Schreibtisch stellen (Studiotische sind oft schon so gebaut, dass man auf ihnen Monitore auf Ohrhöhe platzieren kann). Und richtig ist: Immer so ausrichten, dass sie auf die Ohren des Hörers zeigen, wenn er an seinem Platz sitzt. Wie man sie platziert, hängt vom Setup ab, der linke und rechte Lautsprecher gehören aber immer so platziert, dass sie mit dem Nutzer ein gleichseitiges Dreieck bilden.
Und: Studiomonitor ist nicht gleich Studiomonitor. Nicht nur klingt trotz des gemeinsamen Ziels, einen neutralen Klang ohne Verfälschungen zu erzeugen, ein Genelec 8030 CP immer noch anders als ein Yamaha HS 5 oder der hier schon mehrfach genannte Presonus Eris Studio 5. Da Studiomonitore physikalisch bedingt immer Mehrwegesysteme sein müssen, um das gesamte hörbare Frequenzspektrum möglichst gleichmäßig wiedergeben zu können, hat auch jeder Studiomonitor einen anderen idealen Abstand zur Abhörposition: Es gibt immer genau einen Punkt, wo sich die direkten Schallwellen der Hoch- und Tieftöner treffen, und der hängt von deren Abstand und Ausrichtung ab. Koaxialmonitore wie ein KS Digital C8 oder die Ones von Genelec können dieses Problem entschärfen, da hier die verschiedenen Frequenzanteile für den Hörer nicht aus verschiedenen Richtungen kommen.
Die Lautsprecher sind überdies nur die halbe Miete. Um einen neutralen Klang zu erzielen, muss man sie auch korrekt einmessen, kalibrieren und den Raum akustisch optimieren. Das ist logischerweise mit einem gewissen Aufwand verbunden und wird deshalb gewöhnlich auch nur dort gemacht, wo das wichtig ist: Im Studio.
das id4 ist etwas eigen, die Software und System-Einstellung müssen exakt aufeinander abgestimmt sein was die Abtastrate angeht, sonst gibt es Verzerrungen oder gar kein sound. (weiß nicht warum das nicht synchronisiert wird; und da Windows die Einstellungen gerne zurücksetzt, bin ich dann auf default 44kHz geblieben).
Exakt das Problem hat der Focusrite Treiber seit Win11 auch.
Das ist aber kein Focusrite- oder Audient-Problem, sondern zwangsläufig bei allen professionellen Audiointerfaces gegeben. Hier muss ich mal ein bisschen ausholen: Zur Übertragung und Wiedergabe digitaler Audio- und Videosignale ist es ganz grundsätzlich unerlässlich, dass alle Geräte in der Signalkette auf einen gemeinsamen Takt synchronisiert werden, das gilt im Studio genauso wie im heimischen Wohnzimmer mit Blu-ray-Player/Spielkonsole/PC und AV-Receiver. Dieses Taktsignal nennt man auch Wordclock. Das funktioniert so, dass ein Gerät „Master“ ist, also den Takt vorgibt, und alle anderen „Slaves“, sich also auf dessen Taktsignal synchronisieren. Voraussetzung dafür ist, dass alle Geräte auf derselben zeitlichen Basis arbeiten. Bei Audio ist das die Abtastrate, bei Video die Framerate. Wir reden hier wohlgemerkt über unkomprimierte Signale – alles, was vorher mal ein Codec war (AVC, MP3 etc.), wurde bereits dekomprimiert, bevor es das Quellgerät verlassen hat. Passt das Signal nicht zu dem, was die Geräte dahinter erwarten, muss es konvertiert werden, wobei hier logischerweise maximal so viel geht, wie das schwächste Glied in der Signalkette beherrscht.
Bei Geräten im Endverbraucher-Umfeld geschieht das ganz automatisch über HDMI bzw. DisplayPort; auch S/PDIF enthält immer ein Taktsignal. Da diese Schnittstellen allesamt unidirektional sind (DisplayPort über USB-C/Thunderbolt mal ausgenommen) und die Ausgabegeräte zumeist keine Eingänge haben, ist in diesen Umgebungen immer der Zuspieler der Master. Der Zuspieler übernimmt auch etwaige Abtast- bzw. Frameratenkonvertierungen, wenn das Quellmaterial nicht zum maximal zulässigen Format passt. Kann der AV-Receiver nur 48 kHz, die Wave-Datei auf dem Rechner ist aber mit 192 kHz gesampelt, rechnet Windows das automatisch auf 48 kHz runter. AV-Receiver und Fernseher/PC-Bildschirme wählen zudem automatisch das passende Format, was sie gerade empfangen, soweit es innerhalb ihrer Spezifikationen liegt. Das Taktsignal erklärt auch, warum euer Fernseher bei jedem Formatwechsel kurz schwarz wird und die Fernsehsender daher bis heute Spielfilme nicht in 1080p24 ohne diesen unsäglichen PAL-Speedup senden, obwohl es technisch kein Problem wäre – der Fernseher muss sich erst auf den neuen Takt (der bei Video an die Framerate gekoppelt ist) synchronisieren. Beim Umschalten auf andere Inputs kommt im Fall von HDMI zusätzlich noch der HDCP-Handshake zu, weil HDMI nicht dafür gebaut wurde, AV-Signale auszugeben, sondern dafür, sie *nicht* auszugeben und es nur ausnahmsweise zu dürfen.
Professionelle Audiointerfaces wie von Audient oder Focusrite kommen aber aus dem Studiobereich und gehen daher davon aus, dass du als User dich darum gekümmert hast, alle Geräte und Signale auf deinen Studiotakt zu bringen. Du sagst ihnen (über ihre Software), mit welchem Takt, also welcher Abtastrate gearbeitet wird, und dann erwarten sie, dass ein Signal, das du ihnen schickst, dazu passt. In Studio-Umgebungen hast du ab einer gewissen Größe auch immer ein dediziertes Gerät als Masterclock, das den Studiotakt für alle anderen Geräte generiert, die dafür einen BNC-Anschluss mit sich bringen müssen. Die kleineren Interfaces für Heimumgebungen, die das nicht haben, müssen entweder selber der Master sein oder, wenn Zuspieler per S/PDIF dran hängen, von diesen das Taktsignal bekommen, aber auch hier erwarten sie, dass Erstere das passende Signal ausgeben. Demnach muss dein PC auf dieselbe Abtastrate eingestellt sein – er kann intern Signale verschiedener Formate konvertieren, aber das Signal, was er ausgibt, muss diesem Takt entsprechen. Sprichst du das Interface direkt mit USB oder Thunderbolt an, kannst du gar nichts anderes einstellen, spielst du ihm was über S/PDIF zu, musst du die richtige Abtastrate wählen, sonst kommt kein Ton, da nicht synchronisierbar. Und während das beim PC kein Problem ist, sind z. B. Konsolen manchmal weniger schlau. Meiner PS3, die über einen S/PDIF-Switch mit am Focusrite-Interface hängt, musste ich explizit verbieten, 88,2 oder 176,4 kHz auszugeben, aber da man 44,1 kHz nicht abwählen kann, funktioniert die Ausgabe von Audio-CDs auf diesem Weg nicht, weil die nicht mit 48 kHz ausgegeben werden. Die Nintendo Switch beherrscht btw. nur 48 kHz.
Windows (und vor allem der Nvidia Grafiktreiber) werden vor der Audioausgabe priorisiert und das führt bei hoher Last oder in Energiesparzuständen zu Problemen, so zumindest mit der Focusrite.
Auch das ist kein Focusrite-Problem, sondern
ein Nvidia-Problem und wird dementsprechend auch mit anderen Audiointerfaces auftreten. Die Treiber von AMD und Intel sind diesbezüglich nicht mal ansatzweise so penetrant. Von Nvidia gibt es außerdem einen alternativen Studio-Treiber für Rechner, die hauptsächlich produktiv genutzt werden, wobei der eher mit einem Stable-Branch vergleichbar ist, der im Unterschied zum Game-Ready-Treiber seltener geupdatet wird. Trotzdem empfiehlt es sich, einem PC, der auch für Audioproduktion eingesetzt werden soll, lieber eine Radeon- oder Arc-Grafikkarte einzubauen.
Wer seinen Rechner hauptsächlich als DAW nutzen will, tut unabhängig davon gut daran, nur den Treiber zu installieren und nicht die darüber liegende Software, sofern er die nicht unbedingt für’s Gaming braucht. Für mich ist das keine Option, da ich genug (ältere) Spiele zocke, die keinen eigenen Frameratenlimiter haben und ohne Radeon Chill das Netzteil zum Fiepen bringen, dass es nicht mehr gesund klingt; aber da ich an dem Rechner keine großen Recording-Sessions mit Echtzeit-Monitoring machen muss, ist das vernachlässigbar – in der Postproduktion ist Latenz nicht mal ansatzweise so ein großes Problem.
Dazu kommt noch die Geschichte das viele Anwendungen feste Bitraten haben z. B. CS2 welche dann nicht zu der Bitrate vom Interface, Browser, Discord und was man noch so nutzt passen, dementsprechend ist das alles nicht so einfach.
Vorsicht, Bitrate ≠ Abtastrate. Anwendungen wie Discord, Games oder Medieninhalte im Browser arbeiten größtenteils mit Codecs, also komprimiertem Audio. Das hat nichts mit der Abtastrate zu tun, die du an deinem Interface einstellst, denn die bezieht sich ausschließlich auf unkomprimiertes Audio, das wiederum erst von deiner PC-Hardware ausgegeben wird, nachdem deine CPU diese Codecs entpackt hat. Discord, Games oder der Browser sprechen nicht einmal direkt mit dem Interface, auch weil sie zumeist das Protokoll professioneller Audiointerfaces, ASIO, nicht beherrschen, sondern nur WASAPI oder das ältere Windows Direct Sound. Windows muss hier also zwangsläufig übersetzen – was in Games übrigens zu spürbaren Outputlags führen kann (unabhängig von der Puffergröße, die man beim Interface eingestellt hat), zumal auch die Treiber dieser Geräte nicht für Gaming optimiert sind – eben weil die Interfaces nicht für diese Anwendung gebaut wurden. Deswegen gebe ich auch das normale Computer-Audio über S/PDIF an das Interface – mit dem Onboard-ALC1220 gibt es keine Übersetzungsprobleme; und da die Ausgabe digital optisch erfolgt, auch kein Bauteilrauschen – und lasse lediglich die DAWs direkt mit dem Interface kommunizieren, die dafür gemacht sind, und da verursacht das Focusrite auch keine Probleme mit Treibern o. ä..
Am Mac gibts diese Probleme nicht.
Korrekt, das liegt aber schlicht und einfach daran, dass MacOS mit Core Audio eine gänzlich andere und zugleich für alle Programme und Audiogeräte einheitliche API verwendet. Für viele Audiointerfaces muss man bei Mac nicht einmal zusätzliche Treiber installieren, damit sie voll funktionsfähig sind; bei Windows ist das unumgänglich, allein schon weil WASAPI und Direct Sound nicht in der Lage sind, die zahlreichen Ein- und Ausgänge von Audiointerfaces anzusteuern.
@El-Pucki Trotz dieser Fallstricke will man Studiomonitore nach Möglichkeit mit einem professionellen Audiointerface und nicht mit einer Gaming-Soundkarte von Creative oder gar Onboard-Sound verpaaren, und zwar aus zwei Gründen: Symmetrische Signalübertragung und Bezugspegel. Die symmetrische Übertragung eliminiert elektromagnetische Störeinflüsse, die zwischen Interface und Lautsprecher über das Kabel auf das Signal kommen können, setzt aber entsprechende Kabel und Steckverbindungen voraus – XLR oder zumindest 6,3-mm-TRS-Klinke (sieht aus wie Stereo-Klinke, aber jeder Kanal/Lautsprecher hat einen eigenen Anschluss am Interface). Es gibt auch Adapterkabel von symmetrischer Klinke auf XLR, wenn das Interface z. B. nur Klinkenausgänge hat, die Lautsprecher aber XLR-Eingänge. Cinch oder 3,5-mm-Stereoklinke (ein Klinkenanschluss für beide Lautsprecher, wie beim PC üblich) sind da in jedem Fall raus.
Bezugspegel heißt vereinfacht ausgedrückt, für welche Signalspannungen die Geräte ausgelegt sind. Professionelle Audiogeräte sind auf wesentlich höhere Spannungen genormt und vertragen auch erheblich mehr; Consumer-Geräte arbeiten in einem deutlich geringeren Bereich, was die Elektronik billiger macht, aber auch das Signal-Rausch-Verhältnis schlechter (deshalb sind professionelle Audiogeräte auch so teuer). Bei Studiomonitoren im Einstiegsbereich (kannst dir neben den Presonus auch mal den
ADAM Audio T7V anschauen) gibt es häufig die Möglichkeit, den Bezugspegel per Schalter einzustellen, je nachdem, ob man sie an ein Studiogerät (+4 dBu) oder ein Consumer-Gerät (-10 dBV) hängt – Onboard-Soundchips und Gaming-Soundkarten fallen in letztere Kategorie. Das Eine lässt sich aber nicht mit dem Anderen kombinieren: Einem Gerät, das für -10 dBV ausgelegt ist und mit einem Signal von einem Gerät für +4 dBu (entspricht etwa viermal so viel Spannung wie -10 dBV) oder gespeist wird, haut es im schlimmsten Fall direkt alle Sicherungen durch, wenn das Profigerät zu stark aufgedreht ist. Umgekehrt muss ein Verstärker (einschließlich der Endstufe in einem aktiven Studiomonitor), der mit +4 dBu rechnet und nur -10 dBV bekommt, extrem hoch gedreht werden, um es auf eine ordentliche Lautstärke zu bringen, was sämtliches Rauschen, das von der asymmetrischen Signalübertragung über Cinch dazugekommen ist, mit einschließt. Deswegen würde ich persönlich Studiomonitore nie ohne professionelles Audiointerface betreiben – es geht bei Studiomonitoren, die diesen Umschalter und eine Cinch-Buchse haben, aber es ist nicht wirklich schön.
Nachtrag: Eine Sache, die du bei Studiomonitoren ebenfalls berücksichtigen musst, ist die Stromversorgung. Studiomonitore sind fast immer Aktivboxen, was den Vorteil hat, dass Endstufe und Lautsprecher sich kennen und optimal aufeinander abgestimmt werden können, um den gewünschten möglichst linearen Frequenzgang zu erzielen. Und da sie zumeist nicht paarweise, sondern einzeln verkauft werden, braucht jeder Studiomonitor sein eigenes Stromkabel, und belegt dank Kaltgeräteanschluss wie beim PC-Netzteil auch jeweils eine Schuko-Steckdose. Da muss man also schon mal sicherstellen, dass man genügend freie Steckdosen hat, und sich ggf. mit Steckdosenleisten behelfen. Auch sollten die Studiomonitore hinter einem eigenen Netzschalter bzw. an einer separaten schaltbaren Steckdosenleiste hängen, da sie keinen eingebauten Schutz vor den hohen Spannungsimpulsen haben, die beim Einschalten etwa eines PCs oder Audiointerfaces auftreten, sich am Lautsprecher durch ein charakteristisches Ploppen bemerkbar machen und diesen im schlimmsten Fall sogar zerstören können. Deswegen müssen die Studiomonitore separat schaltbar sein, was mit einer Steckdosenleiste komfortabler ist als die Netzschalter direkt an den Boxen zu drücken, und es gilt die Regel, dass die Lautsprecher stets als Letztes ein- und als Erstes ausgeschaltet werden.
Ich will dir mit all diesen Informationen keine Angst machen. Studiomonitore und ein Audiointerface können auch in einem Gaming-Setup oder zur Medienwiedergabe wunderbar eingesetzt werden und einen hochwertigen Klang erzielen. Im Consumer-Umfeld sind sie aber nicht unbedingt die komfortabelste Lösung, weil sie, abgesehen von den höheren Kosten, ihre Eigenheiten mit sich bringen, die audiotechnische Laien schon mal überfordern können, eben weil sie für den professionellen Einsatz gebaut sind. Wenn man sich darauf einlässt, sich damit auseinanderzusetzen, kann man damit viel Freude haben, und wenn man das Setup dann noch um ein gutes Mikrofon ergänzt, macht das im Discord auch einiges her. Aber Plug-and-Play darf man da nicht erwarten.