Ein Musikstück wird von mehreren Instrumenten und Sängern gespielt. Alle diese Instrumente erzeugen eine Kombination von Sinuswellen mit mehreren Frequenzen und die Gesamtsumme ist eine noch größere Kombination von Sinuswellen.
Es ist möglich, Musik mit einem Spektrogramm zu sehen. Meistens ist ein Spektrogramm ein 3-dimensionaler Graph, in dem:
- die horizontale Achse (x-Achse) die Zeit ist,
- die vertikale Achse (y-Achse) die Frequenz des reinen Tons ist.
- Die dritte Dimension wird durch eine Farbe beschrieben und repräsentiert die Amplitude einer Frequenz zu einer bestimmten Zeit.
Hier ist zum Beispiel ein Klang eines Klaviers, das eine C4-Note spielt (deren Grundfrequenz 261,63 Hz ist)
Und hier ist das dazugehörige Spektrogramm:
Die Farbe repräsentiert die Amplitude in dB (wir werden in einem nächsten Kapitel sehen, was es bedeutet).
Tipp: Wer mit Spektrogrammen herumspielen möchte, der kann den Spectrum Analyzer nutzen oder ein Live-Spektrogramm mit seinem Mikrofon im Chrome Music Lab erzeugen.
Wie wir bereits im vorigen Kapitel erwähnt haben, gibt es, obwohl die gespielte Note ein C4 ist, andere Frequenzen als 261 Hz in dieser Aufnahme: die Obertöne. Interessant ist, dass die anderen Frequenzen ein Vielfaches der ersten sind: Das Klavier ist ein Beispiel für ein harmonisches Instrument.
Eine andere interessante Tatsache ist, dass die Intensität der Frequenzen sich mit der Zeit ändert. Dies ist eine weitere Besonderheit eines jeden Instruments, das es einzigartig macht. Wenn wir denselben Musiker nehmen und sein Klavier mit einem anderen austauschst, wird sich die Entwicklung der Frequenzen nicht gleich verhalten und der resultierende Klang wird sich leicht unterscheiden, da jeder Musiker/jedes Instrument seinen eigenen Stil hat. Technisch gesehen verändern diese Entwicklungen der Frequenzen die Hüllkurve des Tonsignals (welches ein Teil des Timbres ist).
Um eine erste Vorstellung vom Musik-Fingerabdruck-Algorithmus von Shazam zu bekommen, können wir das obige Spektrogramm betrachten und erkennen, dass einige Frequenzen (die niedrigsten) wichtiger sind als andere. Was, wenn man nur die stärksten behalten würde?