AZreferate - Referate und hausaufgaben fur schule.
Referatesuche, Hausarbeiten und Seminararbeiten Kostenlose Online-Dokumente mit Bildern, Formeln und Grafiken. Referate, Facharbeiten, Hausarbeiten und Seminararbeiten findest für Ihre einfache Hausarbeiten.



BetriebstechnikBiographienBiologieChemieDeutschDigitaltechnik
ElectronicaEpochenFertigungstechnikGemeinschaftskundeGeographieGeschichte
InformatikKulturKunstLiteraturManagementMathematik
MedizinNachrichtentechnikPhilosophiePhysikPolitikProjekt
PsychologieRechtSonstigeSportTechnikWirtschaftskunde

Referat Digital Audio - Digital Audio und Computer



informatik referate

informatik referate

Digital Audio

Was ist digital Audio?

Herkömmliche analoge Audiosignale sind Spannungsschwankungen die analog an die Kopfhörer oder Laursprecher übertragen werden und dann in Schallwellen umgewandelt werden.



Bei digital audio werden diese Spannungsschwankungen digital gespeichert.Der Audio-Output eines CD-Players oder Kassettenrekorders schwankt metens zwischen + - 1Volt.Um von diesem analogen Signal ein digitales Abbild zu erhalten,wird diese Spannung sehr oft abgetastet = gesampelt,und die erhaltenen Informationen werden gespeichert.

Um die Qualität der so weit verbreiteten CD zu erhalten,muss das Audiosignal 44100 mal pro Sekumde mit einer Auflösung von 16 Bit = 6 535 Abstufungen gesampelt werden Die entstehende Datenmenge ist so ziemlich groß(1Minute 6 bit,44.1 Khz braucht ca 0 MB)

Der Vorteil von Digital Audio ist aber:Verlustfreies Kopieren,leichte Bearbeitung,und natürlich ein Rauschabstand,und damit auch ein Dynamikumfang von 90 db.

Um diese vorteilhaften digitalen Audiodaten zu komprimieren gibt es verschiedene Verfahren wie zb Microsoft ADPCM

oder Fraunhofer MPEG Layer 3.Näheres dazu später.

Digital Audio und Computer:

Der Computer ist das geeignetste Instrument um digitale Audioinformationen zu speichern und zu verarbeiten.

Unter dem weit verbreiteten Betriebssystem Windows gibt es folgende verlustfreie Audioformate,die alle PCM(Puls Code Modulation) genannt werden:Im Header der verschiedensten PCM Dateien sind sämtliche Daten über das File gespeichert:Samplingrate,Bitrate,Mono,Stereo,aber auch Informationen über die Quantisierung der Audiodaten(zb logarithmisch,oder linear:Bei einer logarithmischen Qantisierung wird der Dynamikbereich mehr dem menschlichem Hörempfinden angepasst,bei einer linearen quabtisierung ergibt sich ein besserer Klirrfaktor)und Informationen über das Schema der digitalisierten Audiodaten Hier gibt es bei PCM:

Intel(LSB,MSB) Motorola (MSB,LSB) und bei acht Bit-Daten: A-Law-8bit und mu-Law-8bit.

Windows PCM waveform (.WAV)

Alle WAV formatieren halten sich and das RIFF (Resource Information File Format).Spezielle Informationen wie Copyright,aber auch die Informationen über Sampleraten und Bitraten sind im sogenannten Header der Datei gespeichert.Die Standard Windows PCM Dateien enthalten unkomprimierte Audiodaten.

Sound Blaster voice file format (.VOC)

Dies ist ein eigenes PCM-Audio-Format der Firma Creativer ihre alten Soundkarten Soundblaster und Soundblaster Pro.Es warr den betrieb mit dem soundblaster unter DOS gedacht.Dieses Format unterstützt nur 8bit; 44.1Khz Mono und 2 Khz Stereo.

Apple AIFF format (.AIF, .SND)

Das ist das Apple Standard WAV-File Format (vgl.WINDOWS PCM)

Sowie Windows PCM kann auch das Apple Format komprimierte Audiodaten enthalten.Näheres dazu später.

Amiga 8SVX (.IFF, .SVX) (*

The Amiga 8SVX format is an 8-bit mono format, which can also be compressed to a 4-bit Fibonacci delta encoded format.

SampleVision format (.SMP)

Das SampleVision Format unterstützt nur 16bit/mono.Diese Format ist gedachtr Sampler.In der Datei selbst können

Loop-Markierungspunkte gespeichert werden,die einem Sampler sagen wie er das Audiomaterial behandeln soll. ASCII Text format TXT)

Data can be read to or written from files in a standard text format, with each sample separated by a carriage return and channels separated by a tab character. Options allow data to be normalized between 0 and , or written out and read in raw sample values. An optional header can be placed before the data. If there is no header text, then the data is assumed to be 16-bit signed decimal integers.

Raw PCM Data (.PCM) (* *)

Dieses Format ist das übergreifende Format aller PCM-audiodatein.In diesem Dateityp sind keine Header-Informationen gespeichert,deshalb wird beim Öffnen dieser Datei die Samplerate,sowie etwa die Quantisierung(MSM<>LSB) und die Anzahl der   Kanäleabgedragt.Mit einem WAV-Editor der dieses Format unterszützt,kann man praktisch jedes unbekannte WAV-Format laden.Unbekannte Header-Informationen sind aber als kurzes Klicken oder Rauschen  am Anfang der Datei hörbar.

Kodierung von Audiosignalen

Audio-Signale lassen sich zum Beispiel gegenüber Video-Signalen mit relativ geringer Bandbreite übertragen. Dennoch ist der Audio-Komponente der höchste Stellenwert zuzuschreiben, da der Mensch auf Störungen in der Ton-Wiedergabe empfindlicher reagiert als auf ein fehlerhaftes Bild. Die Komprimierungsverfahren müssen das Signal im geforderten Frequenzbereich nahezu fehlerfrei rekostruieren können.

ADPCM

Um den Bandbreitenbedarf des Audiosignals zu verringern, wird das Audiosignal bei der adaptive differential puls code modulation (ADPCM) mit einem prädiktiven Verfahren kodiert. Abbildung zeigt das Blockschaltbild des

ADPCM-Coders. Das Audiosignal wird dabei zunächst wie bei PCM abgetastet und quantisiert (hier mit 8 kHz und 8

Bit/Sample). Das  PCM-Signal wird dann im PCM-Coder vom vorhergesagten Signal abgezogen und im adaptiven

Quantisierer mit 4 Bits kodiert. ADPCM arbeitet bei Übertragungsraten von , , - oder 6 kbit/s.

 

 

 

Microsoft ADPCM waveform (.WAV)

Wie schon erw hnt können WAV Dateien (*.wav) auch kodierte/komprimierte Audiodaten enthalten.



Microsodt ADPCM komprimiert jeden Kanal einer Audiodatei nach dem oben beschriebenen Verfahren auf 4 bit.Jedes

4 Bit Sample wird beim Laden wieder auf 16 bit expandiert.

IMA/DVI ADPCM waveform (.WAV)

Dieser Standard komprimiert 16bit Wavdatein nach einem anderen,schnelleren Schema als Microsoft ADPCM.Es hat differente Klirrfaktorcharakteristiken.

CCITT mu-Law and A-Law waveforms (.WAV)

Diese Formate komprimieren 1 bit Audio zu 8bit.Die Qualität liegt zwischen 8 und 16 bit,und ist jedenfalls besser als ADPCM. Thus, a law and mu-law encoded waveforms have a higher s n ratio than 8-bit PCM, but at the price of a little more distortion that the original 16 bit audio.

Dialogic ADPCM (.VOX)

Ein anderes 4bit ADPCM Format.Es wurde opiomiertr Sprachwiedergabe mit niedriger Samplerate.Kein File-Header.

ACM Waveform (.WAV)

Jedes Format,das bei Ihrem Computer unter Systemsteuerung>Multimedia>Audiokomprimierungscodecs installiert ist kann im ACM Format gespeichert und widergegeben werden.Zum Beispiel auch MPEG Layer3(siehe unten)

MPEG

MPEG -Audio:

MPEG 1 verwendet zur Kodierung des Audiosignals eine Technik, die das Signal zunächst in 32 Frequenzbänder teilt. Die einzelnen Spektralanteile werden dann in Abhängigkeit des enthaltenen Rauschens auf verschiedene Weise quantisiert. Zur Bestimmung des Rauschanteils wird ein ,,psychoakustisches Modell`` verwendet. Das quantisierte Signal wird in einem Code mit variabler Bitl nge kodiert und kann außerdem Huffman-entropiekodiert werden. Die

Kodierung von Stereosignalen kann getrennt je Kanal oder im joint stereo-Modus gemeinsam vorgenommen werden. Im zuletzt genannten Fall werden die Übereinstimmungen auf beiden Kanälen berücksichtigt und ein höherer Kompressionsgrad erreicht.

Die MPEG-1-Audio definiert drei Coder/Decoder, die als Layer I-III bezeichnet werden. Die Encoder sind hierarchisch kompatibel, so daß also der Decoder des Layer N in der Lage ist, Signale des Layer N und der darunter zu dekodieren. Die Komplexität der Coder und Decoder steigen mit der Ziffer des Layer.

Layer I beinhaltet das Aufsplitten des Audio-Signals in 2 Frequenzbänder, eine fixe Segmentierung der                                                                                                                                                  Datenblöcke und das psychoakustische Modell zur Bestimmung der Quantisierung. Layer 1 kannr Bitraten von 2 kbps pro

Audio-Kanal verwendet werden.

Layer II bietet eine zusätzliche Kodierung der Bit-Allokation, der Skalierungsfaktoren und der Samples. Layer II

erm glicht die Bit-Rate von 28 kbps pro Kanal.

Layer III erhöht die Frequenzauflösung durch eine hybride Filterbank und verwendet einen anderen Quantisierer, adaptive Segmentierung und Entropie-Kodierung der quantisierten Werte. Dieser Layer bietet Bit-Raten von 4 kbps pro Audio-Kanal.

Fragen & Antworten zum ISO-MPEG Standard

F: Was ist eigentlich MPEG ?

A: MPEG ist die Moving Pictures Expert Group, was wohl ungefär mit Expertengrupper bewegte Bilder zu übersetzen ist (huaaaa *grin*). Diese Gruppe echt cleverer Leute arbeitet sehr eng mit der International Standards Organization (ISO) und der International Electro-Technical Commission

(IEC) zusammen (diese Übersetzungen schenke ich mir . Die MPE Group arbeitet an nichts anderem als Codec-Standardsr Audio/Video-Daten und hat natürlich auch eine eigene MPEG-Homepage.

F: Was bedeutet genau MPEG 2 usw. ?

A: Die verschiedenen Standards entstanden nacheinander durch die gestiegenen Anforderungen. z.Zt. sind 3 Standards fest definiert:

MPEG-1: Codingr Video-Daten und zugehörigen Ton bis zu einer Transferrate von 5 Mbit/s

MPEG-2: 'Generic' codingr A/V-Daten (was soll blos das 'generic' hier bedeuten

[MPEG : ursprünglich geplantr das HDTV; später in MPEG-2 integriert (wahrscheinlich wegen des durchschlagenden Erfolgs von HDTV)

MPEG : Codingr Audio-Visuelle Objekte

F: Ist MPEG-3 und Layer-3 das Gleiche ?

A: NEIN ! Layer-3 ist die Bezeichnungr die Audio-Komponente der MPEG-Standards 1 und . F: Wo kann man die genauen MPEG-Spezifikationen nachlesen ?

A: Einerseits bei der ISO-WWW-Seite, oder über E-Mail bei/in der DIN.

Wie funktioniert MP3?

Allgemein hat man zweiglichkeiten, um die erfordeliche Datenmenge zu reduzieren. Entweder man sampelt weniger oft, oder sampelt mit einer geringeren Aufsung (als 6bit/sample). Um die Qualität zu erhalten, kann man an der Samplefrequenz nichts ändern. Das hat folgenden Grund: Das menschliche Ohr hört Frequenzen im Bereich von

20Hz bis 20kHz (Mittelwert); und nach der sogenannten Nyquist-Theorie muß die Sample-Frequenz doppelt so groß sein, wie die die chste Frequenz, die man speichern will. Da diese Theorie allgemein anerkannt wird, läßt man die Samplefrequenz wie sie ist, und reduziert die Auflösung der Sampels.

Nun, da wir das wissen, müssen wir auf die Auflösung der Sampels genauer eingehen:

Der Grund, warum die Sampels 6bit groß sind, ist folgender: Man will eine ausreichend große

Signal-to-noise-Ratio (Signalrauschabstand, 's/n') erhalten. Das Rauschen, um welches es hier geht, entsteht gezwungenermassen beim Digitalisieren der Sounddaten und wird im Fachjargon Quantisierungsrauschen (quantisation noise) genannt. Für jedes Bit, welches man dem Sampel hinzufügt erhält man eine um 6dB bessere s/n (+6dB entspricht etwa einer Verdopplung der Lautstärke, oder einer Vervierfachung der

Watt-Leistung). Eine Audio-CD hat eine s/n von etwa 90dB, was ausreicht, um dem menschlichen Ohr ein

rauschfreies Signal zu bieten.

Was passiert nun, wenn man die Grösse der Sampels auf 8bit reduziert ? Die Sounddaten werden mit einem hörbaren Hintergrundrauschen (noise floor) unterlegt, den man in leisen Passagen deutlich hört. Aber eben nur in leisen Passagen ! Laute T ne überlagern den noise floor, was man masking effect nennt, und genau das



ist der Schssel zur MPEG Audio Komprimierung. Effekte, wie dieser, gehören zu einer Wissenschaft, die sich psyco-acustics nennt, und sich damit beschäftigt, wie das menschliche Gehirn und Gehöhr Töne verarbeiten.

Nun kommen wir endlich dazu, darauf einzugehen, wie die MPEG Audio Komprimierung diesen Effekt nutzt: Am besten lässt sich das an einem Beispiel erkren. Nehmen wir mal an, wir haben zwei T ne, einen bei

1000Hz und den zweiten bei 1100Hz. Letzterer ist 18dB leiser, als der erste. Der Ton bei 1100Hz würde vollkommen von dem bei 1000Hz überdeckt/maskiert werden, und somit unhörbar. Ein dritter Ton bei 2000Hz mit -18dB relativ zum 1000Hz Ton wäre wieder hörbar, wenn man den Pegel dieses Tones auf -45dB absenkt, würde er wieder maskiert werden. Eine direkte Folge davon ist, daß um den lauten) 000Hz Ton auch der noise floor maskiert wird, deshalb können wir in diesem Bereich die Größe der Sampels reduzieren, was weniger Daten/Sample entspricht, somit also eine Kompression ist.

Was sich hier mit drei T nen noch recht einfach anh rt, verlangt in einem komplexen Audio-Signal natürlich einigen frequenzanalytischen und mathematischen Aufwand.

'Wie macht das nun ein MPEG Audio-coder ?' ist die nächste Frage, die man hier stellt. Er unterteilt das Frequenzspektrum eines Audio-Signals 20Hz bis 20kHz) in 32 sog. Sub-Bands. Nehmen wir nun mal an, im oberen Bereich von Sub-Band 8 liegt unser 1000Hz Ton mit einer Lautstärke von 60dB. Der Coder berechnet nun den masking effect und stellt fest, daß der masking treshold Maskierungs Schwellenwert, frei übersetzt) r das komplette . Sub-Band 35dB unter diesem Ton liegt. Daraus resultiert eine benötigte S/N-Ratio von

60dB-35dB = 25dB, was einer Sampelgröße von 4 bit entspricht. Zusätzlich treten natürlich noch in allen neben dem Sub-Band 8 liegenden Bändern Maskierungseffekte auf, die mit dem Abstand zum Ursprungsband abnehmen. Diese Beeinflussung der Bänder untereinander, wird von den Coding-Routinen ebenfalls berücksichtigt, was die Berechnungen noch komplexer macht.

Die Aufteilung der Sub-Bands ist ebenfalls eine wichtige Komponente der Kodierung. Waren in Layer II noch alle 2 Sub-Bands gleich groß (625Hz), so sind sie in Layer III an die Eigenschaften des Ohres angepasst, also kleiner in den empfindlicheren Bereichen, die (logischerweise) im Bereich der menschlichen Stimme liegen 2 bis 4 kHz), was auch wieder komplexere Filter erfordert. In diesem Punkt hat man auf eine bereits bestehende Filtertechnik zurückgegriffen, die DCT-Filter (Discrete Cosinus Transformation), auf die ich

hier nicht weiter eingehen möchte.

Der nächste, vom Coder berücksichtigte Effekt, ist das sogenannte Pre- & Postmasking. Findet in einem

Soundsignal ein großer Sprung in der Lautstärke statt (mind. 30dB), so tritt ein Premasking Effekt auf, der um

2-5 Millisekunden maskiert, sowie ein Postmasking Effekt, der bis zu 100ms abdecken kann. Man glaubt, daß dieser Effekt daraus resultiert, daß das Gehirn eine gewisse Zeit braucht, um eine solche Dynamik umzusetzen.

Der letzte Schritt vor der Formatierung der Daten, ist ein sog. Huffman-coding, welches folgendermaßen arbeitet: Es ersetzt lange, häuftiger vorkommende Datenketten, durch kürzere, und speichertr den Decodiervorgang diese Zuweisung einmal ab. Diese Art der Kodierung arbeitet verlustfrei, und ist u a. auch die Basisr Kompressionsalgorithmenr Computerdaten (wie ZIP, LHA, RAR usw.).

Alle diese masking effects und Kodierungen werden in einem iterativen Prozess berücksichtigt/berechnet, welcher bei Layer II mit 23ms time-windows arbeitet, was bei sehr dynamikreichem Klangmaterial noch zu Problemen führen kann. Im Layer III Format hat man sich dieses Problems angenommen, vermutlich durch eine Verkleinerung der time-windows.

Übersicht der Komprimierungsfaktoren bei MPEG:



für Layer 1 (entspricht 384 kbpsr ein stereo signal),

für Layer 2 (entspricht 2 kbpsr ein stereo signal),


für Layer 3 (entspricht 2 kbpsr ein stereo signal),

Durch Auslassen des Stereo Effekts u/o Verringern der Bandbreite (Frequenzumfang des Signals) lassen sich noch höhere Kompressionsraten bei geringeren Bitraten erreichen. Die folgende Tabelle stellt bekannte Soundqualitäten den entsprechenden Layer-3 Kompressionsfaktoren gegenüber:

Klangqualität

Telefon

besser als Kurzwelle

Bandbreite

2.5 kHz

4.5 kHz

Modus mono mono

Bitrate

8 kbps

16 kbps

Kompressionsfaktor



besser als Mittelwelle

ähnlich wie UKW

fast CD CD

7.5 kHz



11 kHz

15 kHz

>15 kHz

mono stereo stereo stereo

32 kbps

56...64 kbps

96 kbps

112..128kbps





 
Viele Leute wollen erstmal nicht glauben, daß, trotz einer prinzipbedingt verlustbehafteten Kompression, die Qualität erhalten bleibt.Deshalb ist hier eine Grafik dargestellt:Es wurde von einer Audiocd ein Stück digital ausgelesen.Das resultierende Wav-File wurde einmal mit 128kbit/s und einmal mit 96kbit/s gepackt, und die beiden mp3-Files wieder in wav-Files zurückgewandelt. Dann wurden alle drei Files in einen Wave-Editor geladen und die Wellenformdarstellungen einer Passage auf das Sample genau übereinandergelegt.

MP3 Encoder und Player:

Es ist nicht gleich,von welcher Softwarefirma der Encoder und/oder Player ist.Dies nicht etwa aus Gründen der Komfortabilität oder aufgrund einer attraktiven Oberfläche,sondern aufgrund der Firmenpolitik der Firma Fraunhofer.Die veröffentlichen ISO Definitionen über das Codierungs und Decodierungsverfahren sin unvollständig.So weicht die Klangqualität bei den unterschiedlichen Encodern ab.Bei besseren Encodern ist sogar zwischen zwei Schemen wählbar,nach denen das audiomaterial codiert wird.Auch ist nicht jeder Player diesbezüglich gleich.Ich kann einen hörbaren Unterschied zwischen WINAMP und einen MP3 Player direkt von der Firma Fraunhofer bei dem gleichen MP3 File erkennen.

Andere Audiokomprimierungen

Vor kurzem hat die Firma Microsoft mit einem eigenen Sytem gekontert.das angeblich eine Komprimierung

ohne hörbaren Unterschied von bis zu 1 ermöglicht.Sony will dieses Komprimierungsformat in eigene Audiogeräte integrieren.

Weiters hat die Firma Fraunhofer MPEG Layer 4 in Arbeit.

FAZIT UND ZUSSAMMENFASSUNG:

MPEG - Kompression mit Köpfchen

Eines der wichtigsten Kompressionsverfahren für Audios und Videos ist MPEG. MPEG ist und wird vom Frauenhofer Institut für Integrierte Schaltungen entwickelt und weiterentwickelt. Grundlage des MPEG-Verfahrens ist die Biologie des Menschen. Der Mensch selbst kann nicht alle Informationen wahrnehmen, zum Beispiel bemerkt er bestimmte Farbänderungen, oder bestimmte Unterfrequenzen nicht. Somit ist es möglich, nicht nur den Datenstrom an sich mit mathematischen Modellen zu komprimieren, sondern ganz gezielt Informationen aus dem Datenstrom herauszuschneiden, die der Mensch bei der Wiedergabe kaum wahrnimmt. Außerdem ist bekannt, daß man Bilder wesentlich effizienter speichern kann, wenn man sich von Bild zu Bild nur die Unterschiede in den einzelnen

Bildern merkt. Im Falle von Audio kann man ebenfalls den Datenstrom auf diese Weise komprimieren. Audios weisen nämlich meist auch die Eigenschaft auf, daß von Abstastung zu Abtastung nur relativ selten starke Anderungen eintreten. Alles in allem setzte man alle drei Kodierungsmöglichkeiten, differenzielle Kodierung (nur Wertänderungen abspeichern), verlustbehaftete Kodierung (Datennnen nicht 1 0%ig restauriert werden - Qualität wird bedingt durch die Biologie jedoch nicht beeinträchtigt) und die Reduzierung der Quellenentropie (Mathematisches Modell der Datenkompression) zu dem MPEG 1

Verfahren zusammen. Bereits mit MPEG 1 konnte man Komprimierungsraten von bis zu 1 3 (Bedarf beträgt nur etwa 1 3 des ursprünglichen Platzbedarfes) erreichen. Mit MPEG-2 verfeinerte man vor allem die Erkennung von biologischen Faktoren und damit die weitere Entfernung von Informationen im digitalen Datenstrom, die der Mensch nicht wahrnehmen kann. Mit MPEG-2 erreichte man nun immerhin schon Kompressionsraten bis zu 6. Erst Mitte 1 97 brachte die Frauenhofergesellschaft für Audios ein neues Verfahren heraus - MPEG-3. Mit MPEG 3 kann man Audio ohne Qualitätsverlust bis auf 1 2 der

Orginalgrö e schrumpfen lassen. Diese hohe Kompressionsrate erreicht man außerdem durch eine verbesserte differentielle Kodierung. Im Gegensatz zur herkömmlichen differentiellen Kodierung setzt man bei MPEG-3 auf folgendes Verfahren: Zu jedem Zeitpunkt wird bereits die Nachfolgeinformation berechnet, wie sie eventuell aussehen könnte. Im eigentlichen Datenstrom stehen nun nur noch die Informationen ber die Anderung zur Vorausberechnung. Da die Vorausberechnung in den meisten Fällen den eigentlichen Werten sehr hnelt, müssen nur noch wenige Informationen gespeichert werden, was den Datenstrom erheblich reduziert.

Doch auch mit solchen Erfolgen sollte man nicht aufgeben. Biologen haben herausgefunden das der 'Datenstrom' im Menschen zwischen Ohr und Gehirn nur wenige KByte s beträgt. Rein theoretisch sind somit noch weit bessere Kompressionsraten möglich, nur im Moment weiß noch niemand, wie diese Informationen dermaßen stark komprimiert werden könnten. Die Videokomprimierung nach MPEG3 wird sicherlich noch einige Zeit auf sich warten lassen, da Videos eine wesentlich höhere Komplexität besitzten als Audios.

All rights reserved

(1999) Funky-Flo

This document may be distributed free,but it MUS NOT BE altered. NO COMMERCIAL USE

Theese 3 links must not be removed: https://www.musica.at/funkyflo/ https://www.8ung.at/funktheworld/ https://funkyflo.virtualave.net/mp3search/

have a lot of sucess with this information ☺



Referate über:



Datenschutz




Copyright © 2024 - Alle Rechte vorbehalten
AZreferate.com
Verwenden sie diese referate ihre eigene arbeit zu schaffen. Kopieren oder herunterladen nicht einfach diese
# Hauptseite # Kontact / Impressum