Cookie Consent by Free Privacy Policy Generator website
MyOwnMusic

Magazin

Technik Datenreduktion in der Audiotechnik

Technik Datenreduktion in der Audiotechnik

Technik Datenreduktion in der Audiotechnik

Datenreduktion in der Audiotechnik

Digitale Daten lassen sich nicht ohne weiteres auf unbegrenzt kleinem Raum unterbringen. Kommt eine CD mit 60 Minuten Laufzeit noch mit einem Speichervolumen von zirka 650 Megabyte aus, reicht selbst die Speicherkapazität einer DVD für Film und Mehrkanalton ohne Datenkomprimierung nicht aus. Dieser Sachverhalt lässt sich sehr einfach berechnen: Ausgehend von der Datenrate einer normalen Stereo-CD, die bei einer Sampling-Frequenz von 44,1 kHz und einer Wortbreite von 16 Bit einen Datenstrom von 44.100 Hertz x 16 Bit x 2 Kanäle also 1,4 MBit/s besitzt, kommen so bei einer Stunde Laufzeit 630 Megabyte an Daten zusammen. Die passen mit Reserven problemlos auf eine CD. Bei einer mit sechs Tonkanälen (5.1) bespielten DVD (Samplingrate 48.000 Hz, Wortbreite 24 Bit) entsteht ein Datenstrom von immerhin 6,9 MBit/s, multipliziert mit einer Standardlaufzeit von 90 Minuten, was in der Praxis meist nicht ausreicht, landen wir bei 4,7 Gigabyte Datenbedarf. Der passt zwar auf eine DVD mit einem Layer, allerdings ist nun kein Platz mehr für das Bildmaterial, ganz zu schweigen von zusätzlichen Sprachversionen oder sonstigem Zusatzmaterial. Ohne Datenreduktion sowohl beim Bild wie auch beim Ton geht hier also gar nichts.

Hier kommt dann der vierte Textblock, der für alle Besucher zu lesen sein soll. Dieser Textblock ist der Teaser zum Artikel.

Lorem ipsum dolor sit amet, consectetuer adipiscing elit. Sed felis est, pulvinar id, euismod vitae, auctor et, leo. Duis nibh. Nam elit. Nunc ut sem eget dui tempor mollis. Donec augue. Donec libero neque, convallis vel, convallis sed, varius at, velit. Proin lorem mauris, eleifend in, malesuada eget, auctor nec, lacus. Ut feugiat. Etiam nunc velit, lobortis eu, dignissim at, convallis ut, massa. Duis non est. Praesent eget metus sit amet neque tincidunt mattis. Ut pellentesque, dui a auctor feugiat, turpis ante luctus orci, a nonummy sem ante et odio. Ut fermentum. Mauris ipsum. Vestibulum commodo, justo sit amet auctor volutpat, elit pede bibendum sem, in luctus tortor eros vitae mauris. Nulla gravida. Pellentesque habitant morbi tristique senectus et netus et malesuada fames ac turpis egestas.

Im Rahmen internationaler ISO-Standardisierungsmaßnahmen der MPEG werden nun seit 1988 Verfahren zur Datenreduzierung vorgeschlagen, optimiert und standardisiert. Diese Standards werden für DVD, DAB, DVBT und Internetanwendungen verwendet. Datenreduktionsverfahren gibt es auch seit dem Aufkommen der Mini-Disc mit ATRAC (Adaptive Transform Audio Coding) und den verschiedenen MPEG-Formaten (Motion-Picture-Experts-Group) bei MUSICAM (Masking-Pattern Universal Subband Intergrated Coding And Multiplexing) oder Music-Taxi, ferner beim MASCAM (Masking Pattern Adapted Subband Coding and Multiplexing) beziehungsweise bei Joint-Stereo Anfang der 90er-Jahre und last not least beim MP3-Verfahren. Die Grundlagen für diese Datenreduktion kommen aus einer Zeit, als noch keiner bewusst an diese Formate gedacht hat. In den 1950er-Jahren beschäftigten sich Wissenschaftler in Deutschland und in den USA mit den Vorgängen des Hörens im Ohr und im Gehirn und erforschten die psychoakustischen Eigenschaften des Gehörs bis in alle Feinheiten. Ziel dieser Untersuchungen war das Ergründen sowohl der Hörphysiologie als auch der Hörpsychologie. Diese beiden Begriffe stehen für den Unterschied zwischen dem Hör-Reiz, rein mechanisch am Trommelfell, und der Hör-Empfindung, der Verarbeitung dieser Reize im Gehirn – dem komplexesten Sachverhalt des Hörens überhaupt. Um nun möglichst objektive Ergebnisse zu erhalten, stellten diese Forscher mit Probanden Versuche an, bei denen mit ganz bestimmten Frequenzen und Pegeln auf der einen Seite das Lautstärkeempfinden und auf der anderen Seite das Tonhöhenempfinden getrennt voneinander dokumentiert werden konnten. Diese Untersuchungen – festgehalten im Standardwerk für Akustiker hier in Deutschland: „Das Ohr als Nachrichtenempfänger“ von Eduard Zwicker und Richard Feldtkeller, 2. Auflage 1967 – führten zu der Erkenntnis, dass sich unser Hörapparat – und hierbei ist die Strecke von der Ohrmuschel über das Trommelfell, den Amboss, den Steigbügel, das Ovale Fenster bis ins Gehirn gemeint – auch in technischen Daten ausdrücken lässt:

• Der Frequenzbereich ist 16 Hz – 19 kHz• Die Frequenzauflösung beträgt zirka 640 Schritte (wichtiges Kriterium für die Datenreduktion)• Der Dynamikbereich umfasst 140 dB (von nichts zu Hören bis Trommelfell beschädigt)• Die Dynamikauflösung ist zirka 1 dB (der geübte Toningenieur findet auch Unterschiede bei 0,5 dB)• Der kleinste unterscheidbare Winkel beim Richtungshören beträgt ca. 8°. (wichtig für die Richtungsinformation bei Stereo) Eine weitere Erkenntnis war, dass sich der gesamte Hör-Frequenzbereich in 24 kritische Bänder (in den USA sind es 27 Bänder) – so ermittelten die Wissenschaftler empirisch – unterteilen lässt. Diese auch als Teilbänder bezeichneten kritischen Bänder haben unterhalb von 500 Hz eine konstante Bandbreite von 100 Hz (führt zu Problemen bei der Datenreduktion – wie später gezeigt) und oberhalb eine von 1/6 bis 1/3 Oktave. Diese Erkenntnis führte auch zum Nachweis, dass sich unser Gehör wie ein (fast) perfekter Analyzer verhält. Und der funktioniert völlig mechanisch. Jeder Frequenz, die wir unserem Ohr anbieten, ist ein bestimmter Ort in der Gehörschnecke zugewiesen, der dann durch die Bewegung der Sinneszellen (Kapillaren) diesen Reiz an das Gehirn meldet. Der Kammerton „a“, auf einer Geige gespielt, erregt zum Beispiel die Nervenzellen der Basilarmembran 20,83 mm vom Fenster besonders stark (Grundwelle), 18,19 mm nur halb so stark (2. Harmonische oder Oktave), 22,52 mm nur zu einem Drittel (klangtypisches Verhalten bei Geigentönen) und 16,39 mm (Geräusch des Bogens auf der Seite) zu einem Viertel. Dazwischen schwingt nichts. Der Kammerton „a“ absolut hat eine harmonische Tonhöhe von 1 9/12 Oktaven. Hier lässt sich erkennen, wie eng die Hörpsychologie mit der Musik verknüpft ist, darüber gibt es unzählige Dissertationen in der Musikwissenschaft. Wie jeder Analyzer hat auch unser Ohr bei jeder Frequenz eine Bandbreite, die stark abhängig vom Pegel dieser Frequenz ist. Je höher dieser Pegel ist, desto breiter wird der Bereich um diese Frequenz. Das führt übrigens auch dazu, dass Hörgeschädigte unempfindlich gegenüber datenreduzierten Audiosignalen sind. Schwerhörige Jugendliche empfinden Klingeltöne vom Handy als „melodiös“. Diese Untersuchungen führten zu einer Tabelle, in der sich ablesen lässt, bei welchem Pegel und welcher Frequenz ein bestimmtes Hörempfinden erreicht werden kann. Was die Wissenschaftler damals noch nicht wissen oder vorausahnen konnten, ist, dass heute genau diese Tabellen auch zur Datenreduktion in digitalen Audiosignalen herangezogen werden, allerdings mit viel Rechenaufwand verknüpft. Das Zauberwort hierbei heißt Verdeckungseffekt. Im Grunde genommen beruht die ganze Technik der Datenreduktion auf diesem speziellen Phänomen unserer Ohren, dem Verdeckungseffekt des Gehörs. Der besagt, dass ganze Töne „unterschlagen“ werden, wenn sie in ihrem Spektralbereich nahe genug am zu übertragenden Ton, dem Nutzton, liegen. Der Pegel dieses zu verdeckenden Tones spielt auch eine wichtige Rolle: Je näher er am Nutzton liegt, desto lauter darf er sein. Er darf nur nicht lauter als der Nutzton sein, denn sonst würde er diesen verdecken. Im Verdeckungsbereich ist dann ein real existierender (leiserer) Nachbarton zum Nutzton nicht wahrnehmbar. Somit kann der Eigenschaft des Gehörs ein reeller Q-Faktor (Gütefaktor) gegeben werden, der ein Maß für die Verdeckung eines Tones durch einen anderen Ton ist. Die Verdeckung oder auch Maskierung hängt von der Art des Tones ab: Am einfachsten ist die Maskierung eines Sinustons, am kompliziertesten die eines komplexen Signals. Da eine nichtharmonische Verzerrung, der Klirrfaktor eines Sinustons ein breites Frequenzspektrum erzeugt, ist diese sofort zu hören, da sich die Spektren weit von der Grundwelle und somit des Verdeckungsbereiches befinden. Auch bei datenreduzierten Signalen bleibt der typische Klang eines Instruments weitestgehend erhalten, da auch hier Grund- und Obertöne außerhalb des jeweiligen Verdeckungsbereichs liegen. Folglich werden bei der Datenreduktion nur die unhörbaren, weil verdeckten Töne herausgeschnitten, man braucht sie ja nicht mehr. Das reduziert die Datenmenge erheblich. Eine Gesetzmäßigkeit, die alle Abhängigkeiten von Lautstärke, Spektrum und Rauschen in eine Beziehung zueinander stellt, ist hierbei ebenfalls hilfreich: Basierend auf Untersuchungen, die Alexander Graham Bell in den 80er-Jahren des 19. Jahrhunderts machte, weiß man, dass ein Nutz-Störsignal-Abstand (Rauschabstand) von etwa zwölf bis 13 Dezibel ausreicht, um einen Ton störungsfrei hörbar werden zu lassen, vorausgesetzt, das Rauschen um diesen Ton herum ist schmalbandig. Diese Schmalbandigkeit wurde übrigens ebenfalls empirisch in umfangreichen Hörversuchen ermittelt. Um ein Nutzsignal, das zirka zwölf Dezibel lauter als das ihn umgebende Rauschen ist, in seiner psychoakustischen Reinheit exakt darstellen zu können, genügen zwei bis drei Bit Auflösung. Die Problematik besteht bei der Datenreduktion darin, diese zwei Bit genau an dieser Stelle zur Verfügung zu stellen, wo sie im Spektrum gebraucht werden. Das ist mit einer sehr umfangreichen Rechenarbeit verbunden. Der technische Spezial-Ausdruck dafür heißt „Dynamische Bit-Zuweisung“.



Kommentare


von  Professional audio am 10.12.2008
Aufrufe  2995



Anzeige


Weitere interessante Artikel