Wir wissen jetzt, wie man von einem analogen zu einem digitalen Sound kommt. Aber wie bekommt man die Frequenzen in ein digitales Signal hinein? Dieses Kapitel ist sehr wichtig, da der Fingerabdruck-Algorithmus von Shazam nur mit Frequenzen arbeitet.
Für analoge (und daher kontinuierliche) Signale gibt es eine Transformation, die als kontinuierliche Fourier-Transformation bezeichnet wird. Diese Funktion transformiert eine Funktion der Zeit in eine Funktion von Frequenzen. Mit anderen Worten, wenn man die Fourier-Transformation auf einen Klang anwendet, wird sie uns die Frequenzen (und deren Intensitäten) innerhalb dieses Klanges wiedergeben.
Aber es gibt zwei Probleme:
- Wir beschäftigen uns mit digitalen Klängen und daher mit endlichen (keine kontinuierlichen) Klängen.
- Um die Frequenzen innerhalb einer Musik besser zu erkennen, müssen wir die Fourier-Transformation auf kleine Teile des Audiosignals in voller Länge anwenden, wie 0,1 Sekunden-Teile, sodass wir wissen, welche die Frequenzen für jedes 0,1 Sekunden-Teil einer Audiospur sind.
Glücklicherweise gibt es eine andere mathematische Funktion, die Diskrete Fourier-Transform (DFT), die mit gewissen Einschränkungen funktioniert.
Anmerkung: Die Fourier-Transformation muss nur auf einen Kanal angewendet werden, das heißt, wenn man einen Stereo-Song hat, muss man ihn in einen Mono-Song umwandeln.