Analoge Signale sind kontinuierliche Signale, das heißt, wenn man eine Sekunde eines analogen Signals nimmt, kann man diese Sekunde in x Teile zerlegen (setze für x die größte Zahl ein, die du dir vorstellen kannst!), die einen Bruchteil der Sekunde dauern. In der digitalen Welt kann man es sich nicht leisten, unendlich viele Informationen zu speichern. Man benötigt eine Mindesteinheit, z. B. 1 Millisekunde. Während dieser Zeiteinheit kann sich der Ton nicht ändern, daher muss diese Einheit kurz genug sein, damit der digitale Song wie der analoge klingt und klein genug sein, um den Speicherplatz für die Speicherung der Musik nicht zu überschreiten.
Denken wir zum Beispiel an eine bekannten Song. Nun stellen wir uns vor, dass sich der Klang des Songs nur alle 2 Sekunden ändert - dies würde dann nicht mehr wie ein Song klingen. Technisch gesprochen wurde der Sound durch einen Alias verändert. Um sicher zu stellen, dass der Song vernünftig klingt, kann man eine sehr kleine Einheit wie eine Nano-Sekunde (10-9 s) wählen. Diesmal würde der Song großartig klingen, aber wir haben nicht genug Speicherplatz auf unserem Rekorder, um sie abzuspeichern, schade.
Dieses Problem wird Sampling genannt.
Die Standardzeiteinheit für digitale Musik beträgt 44 100 Einheiten pro Sekunde bzw. Samples pro Sekunde. Aber woher kommen diese 44,1 kHz? Nun, irgendein Typ dachte, 44 100 Einheiten pro Sekunde wären eine schöne Zahl ... Spaß beiseite.
Im ersten Kapitel haben wir gesagt, dass Menschen Klänge von 20 Hz bis 20 kHz hören können. Ein Satz von Nyquist und Shannon besagt, dass man, wenn man ein Signal von 0 Hz bis 20 kHz digitalisieren will, mindestens 40 000 Abtastungen pro Sekunde benötigt. Die Grundidee ist, dass ein Sinuswellensignal mit einer Frequenz F mindestens 2 Punkte pro Zyklus benötigt, um identifiziert werden zu können. Wenn die Frequenz des Samplings mindestens doppelt so hoch ist wie die Frequenz des Signals, erhält man mindestens 2 Punkte pro Zyklus des Originalsignals.
Lasst uns versuchen, das mit Hilfe eines Bildes zu verstehen. Schauen wir ein Beispiel eines guten Samplings an:
In dieser Abbildung wird ein Ton bei 20 Hz mit einer Abtastrate (Sampling-Rate) von 40 Hz digitalisiert:
- die blaue Kurve repräsentiert den Ton bei 20 Hz,
- die roten Kreuze stellen den gesampelten Ton dar, das heißt, dass jede 1/40 Sekunde die blaue Kurve mit einem roten Kreuz markiert wird,
- die grüne Linie ist eine Interpolation des gesampelten Tons.
Obwohl sie weder die gleiche Form, noch die gleiche Amplitude hat, bleibt die Frequenz des abgetasteten Signals die gleiche.
Hier ist ein Beispiel für schlechtes Sampling:
In dieser Abbildung wird ein Ton bei 20 Hz mit einer Abtastrate von 30 Hz digitalisiert. Diesmal ist die Frequenz des abgetasteten Signals nicht identisch mit dem ursprünglichen Signal: es sind nur 10 Hz. Wenn man genau hinschaut, kann man sehen, dass ein Zyklus im gesampelten/abgetasteten Signal zwei Zyklen im ursprünglichen Signal darstellt. Diesen Fall nennt man eine Unterabtastung (englisch „under sampling“).
Dieser Fall zeigt auch noch etwas anderes: Wenn man ein Signal zwischen 0 Hz und 20 kHz digitalisieren möchte, muss man vor dem Samping/der Abtastung die Frequenzen über 20 kHz vom Signal entfernen. Andernfalls werden diese Frequenzen in Frequenzen zwischen 0 Hz und 20 kHz umgewandelt und fügen unerwünschte Klänge hinzu (dies wird Aliasing genannt).
Zusammenfassend: Wenn man eine gute Musikkonvertierung von analog zu digital erreichen möchte, muss man die analoge Musik mindestens 40 000 Mal pro Sekunde aufnehmen. HiFi-Unternehmen wie Sony wählten in den 1980er Jahren 44,1 kHz, weil es über 40 000 Hz lag und mit den Videostandards NTSC und PAL kompatibel war. Es existieren auch andere Audio-Standards wie 48 kHz (Blueray), 96 kHz und 192 kHz, doch wenn man kein Experte oder Audiophiler ist, hört man wahrscheinlich 44,1 kHz Musik.
Anmerkung 1: Der Satz von Nyquist-Shannon ist umfangreicher als das, was wir gesagt haben. Du kannst hier nachlesen, wenn du mehr darüber wissen möchtest.
Anmerkung 2: Die Frequenz der Abtastrate muss exakt dem Zweifachen der Frequenz des zu digitalisierenden Signals entsprechen, da man im schlimmsten Fall ein konstant digitalisiertes Signal erhalten würde.