Néhány gondolat az mp3-ról és a haláláról

A napokban elég sok cikkel találkoztam, amelyek szerint az mp3, mint formátum, halott. Sőt egyenesen volt olyan “hírportál”, amely szerint a formátum “megszűnt létezni”. Ezen orbitális baromságok kapcsán döntöttem úgy, hogy pár információt megosztok az mp3 formátumról a népbutító, bulváros újságírás helyett.

Némi történelem

Kezdjük a legelején egy kis történelemmel. Az mp3 formátumot 1987-ben kezdték el kifejleszteni Németországban, a Fraunhofer IIS kutatóintézetben. A kódolás teljes neve MPEG-1 Audio Layer III, ami a hétköznapokban az olyan szoftverek miatt, mint a Winamp, vagy annak idején a Sonique mp3 néven tették ismerté a formátumot.

Az mp3 elődjei az MPEG-1 Audio Layer I és Audio Layer II. Ezen kódoló eljárások alapját a MUSICAM kodek adja, amit az  Institute for Broadcasting Technology IR és Philips fejlesztett ki. Ezen kódolás két variánsa került be hivatalosan az MPEG-1 videó szabványba hang átvitelre. Az Audio Layer II kódolás egy az egyben a MUSICAM kódoláson alapul, míg az Audio Layer I ennek egy butított változata, kevésbé komplex hangforrások kódolására. Az mp3 ehhez a listához később csatlakozott és az MPEG-1 videó szabványnak nem lett része, ő csak hangjel kódolásra alkalmazható.

Az MPEG csoport egy ISO/IEC szabvány kibocsájtó szervezet, amely kifejezetten digitális videó és hanganyagok szabványosítására törekszik. Többek között ők állnak olyan formátumok mögött, mint a DVD esetén használt MPEG-2 vagy a HDTV/Youtube és manapság mindenhol használt MPEG-4 formátum (h264 vagy h265 videó kódoló eljárások és AAC hang kódoló eljárás, amelyek együtt alkotják az mp4 szabványt).

Az mp3 kódolási eljáráshoz tartozó szabadalmat 1989-ben jegyezték be Németországban, 1996-ban pedig a szabadalmat az Egyesült államokban is bejegyezték, azonban a fejlesztő  Fraunhofer IIS csak 1998-ban kezdte meg a formátummal kapcsolatos szabadalmainak érvényesítését, amikor az már elterjedtnek mondható volt. A Fraunhofer szabadalma miatt minden mp3 kódolót és dekódolót gyártó cég jogdíjat volt köteles fizetni nekik.

Az mp3-at megalkotó csapat 1987-ben. Forrás: https://www.mp3-history.com/

Egy korszak “vége”

2017. április 21.-én ezen jogdíj szedését szüntették meg. Ennek több oka van. Leginkább a a zene hallgatási szokások változása, amihez nagymértékben hozzájárult a YouTube és a Spotify térhódítása. Manapság sokan (sokszor én is) ezen oldalakról hallgatnak zenét. Ezen platformok pedig az mp4 formátumot használják, pontosabban az mp4 részeként elterjedt Advanced Audio Coding (AAC) formátumot. Ez mondható az mp3 valódi utódjának. És ugye ha valamiből nem jön pénz, akkor nem érdemes jogdíjat szedni utána.

Tehát ez nem az jelenti, hogy megszűnt a formátum, mert nem lehet rá licencet venni, hanem azt, hogy most már jogi következmények nélkül mindenféle kütyübe be lehet építeni mp3 kódolót vagy dekódolót. Valójában ezen lépés szerintem az mp3 még szélesebb körű elterjedéséhez fog vezetni, ami éppen az ellentéte a formátum halálának.

Viszont ez nem azt jelenti, hogy érdemes lenne használni még mp3-at. Az AAC első specifikációja 2000-ben jelent meg és azóta csak fejlesztettek rajta. Fényévekkel jobb minőségű hangzást produkál, mint egy mp3 fájl és az mp4 elterjedése miatt kb. minden támogatja, vagy ha nem is, de a telefonod biztos. Éppen ezért ha még CD-ről tömörítesz hangot és veszteségesen szeretnéd tárolni, akkor inkább mp4-et használj. Ha pedig YouTube-ról töltesz le, akkor ne kódold újra mp3-ba a már elve veszteséges hanganyagodat.

Az mp3 működése

A veszteséges tömörítések elve az, hogy a tárolt adat egy részét, ami “felesleges”, eltávolítjuk. Az emberi fülnek vannak limitációi. Egy egészséges ember hallás tartománya 20 Hz és 22,5 kHz között kellene, hogy mozogjon. 20 Hz alatti frekvenciákat nem tudunk meghallani és ugyan ez elmondható 22,5 kHz feletti hangokról is. Azonban a legtöbb ember 16 kHz feletti hangok meghallásával már küszköd, ezért az mp3 formátum kódolás első lépéseként a 16 kHz feletti információ tartalmat kiszűri.

A kódolás következő lépése az, hogy a Fourier-transzformáció alapján minden komplex jel leírható több jel összegeként. Ez azt jelenti, hogy mp3 kódolás esetén ténylegesen nem a hanganyagot tároljuk, hanem a hanganyag előállításához szükséges frekvencia generátor paramétereit. Egy ilyen frekvencia generátor paraméterei nagyon jó minőség mellett is negyed akkora helyet foglalnak, mint a bemeneti nyers hang. Értelemszerűen minél nagyobb bitrátát alkalmazunk, annál jobban meg fogja közelíteni a jelalak az eredeti bemenetet.

Az mp3 egyébként nem sima Fourier-transzformációt alkalmaz, mert az komplex számokon dolgozik, hanem ennek egy módosított változatát, a diszkrét koszinusz transzformációt, amely a valós számok halmazán dolgozik.

Az eredeti jelből a transzformált jel meghatározása jóval időigényesebb, mint a transzformált jelből a visszaalakítás. Éppen ezen tulajdonsága miatt vált elterjedté ezen kódolás. Mp3-at már egy 486-os masinán is vissza tudtunk játszani, igaz nem a legjobb beállításokkal, de egy 1993-ban megjelent Pentium I CPU már simán megbirkózott a dekódolással. Aztán persze később kifejezett cél hardverek is születtek erre a célra.

A 486 még azért nem volt alkalmas teljesen mp3 visszajátszásra, mert ezen processzor nem rendelkezett még fejlett lebegőpontos egységgel, ami a DCT kódoláshoz és visszafejtéshez kell. Itt megjegyezném, hogy sok mai beágyazott rendszeren még mindig nincs lebegőpontos egység. Ezeken az mp3 dekódolást úgy oldják meg, hogy az egész szám alapú matematikát használ. Ez több műveletet igényel és nem lesz olyan pontos az eredmény, de cserébe kevésbé bonyolult lesz tőle a CPU. Ennek is köszönhető részben az mp3 silány minősége.

Mitől jobb az AAC?

Az AAC számos előnnyel rendelkezik az mp3 formátumhoz képest. A teljesség igénye nélkül néhány:

  • Akár 48 csatornát is tud kódolni, míg az mp3 csak 2 csatornát
  • Sima DCT helyett, ez MDCT transzformációt alkalmaz, ami jobb minőséget eredményez
  • Nincs bitráta limit. A fájl akármilyen bitrátával rendelkezhet, bár pár érték szabványosított. Általában a kódoló program dönti el, hogy egy hang csomagot ( 26 ms a hangfájlból ) milyen bitrátával kell kódolni.
  • Jobban kezeli a tranziens (hirtelen változó) jeleket
  • Nincs vágás 16 kHz-nél, a teljes hangsáv tömörítve van
  • TNS támogatása, amivel jobb hangzást produkál alacsony frekvenciás hang esetén, illetve kiszűri a hanganyagból a zaj nagy részét, ami digitális-analóg átalakításkor keletkezne

Veszteségmentes digitális hang tárolás

Veszteségmentesen digitálisan hangot nagyon sokáig csak PCM (Pulse Code Modulation) eljárással lehetett tárolni. A PCM lényege, hogy adott intervallumonként eltároljuk a mintavételezni kívánt jel értékét adott felbontással. CD audio esetén ez azt jelenti, hogy másodpercenként 44100 mintát veszünk és a minták 16 bites felbontással kerülnek tárolása két csatorna esetén. A 44100 minta nem meglepően 22,5 kHz duplája. Ez a Shannon-Nyiquist tétel miatt van. Ez kimondja, hogy egy  adott frekvenciatartományba eső időfüggvény véges számú minta segítségével, információvesztés nélkül átvihető, ha mintavételezési frekvencia legalább a mintavételezett jel duplája.

Visszatérve a CD példára könnyen kiszámolható, hogy másodperc anyag így 44100*2 (csatornák miatt) * 2 (16 bit = 2 byte) adatot, ami ~172,265 kiB. Ez manapság nem számít nagy méretnek, de akkoriban igencsak nagy adat mennyiség volt. A PCM kódolás legnépszerűbb formátuma a WAV, ami valójában nem csak PCM kódolású adatot képes tárolni, hanem ADPCM-et, sőt akár mp3-at is. Igaz, ezen megoldások nem túl népszerűek, sőt kihaltnak mondhatóak. A WAV Apple megfelelője az AIFF formátum, aki kb. ugyan azt tudja pepitában.

Ezen formátumok mai napig is alkalmasak hang információ veszteségmentes tárolásra, azonban egy komoly limitációjuk, hogy maximum 2GiB lehet egy ilyen fájl, valamint meta adatot (előadó neve, megjelenés éve, album neve, borító, stb…) nem tudnak tárolni.

Éppen ezért veszteségmentes tárolásra manapság FLAC, WavPack, Ape, vagy Apple Losless formátumban szoktak adatot tárolni. Ezek között minőségügyileg nincs különbség, csak a produkált fájl méretben van eltérés és az eszköz támogatásban.

A legnagyobb eszköz támogatással az Apple Lossless rendelkezik, mivel ilyen fájlokat bármelyik Apple eszköz vissza tud játszani. Az Apple Lossless mellett a leginkább a FLAC támogatott. A WavPack és az APE formátumok támogatottsága szinte hiba határon mozog, pedig a WavPack jobb fájlméretet produkál, mint a FLAC és a WavPack valamint az APE ugyan úgy nyílt forráskódúak és jogdíj mentesek, mit a FLAC.

Az mp3 zenész füllel

Mivel én csak hallgatom a zenét és nem készítem, megkérdeztem egy ismerősömet, Ádámot, aki Adam Bass és Spectra néven publikál Hardstyle muzsikákat. soudcloud | facebook | discogs

Zenészként mik a szembetűnő hátrányai az mp3-nak?

Hardstyle zenei pályafutásom 11 éve kezdődött, amikor még bőven sikerült belezuhannom a bakelites korszak végére, valamint a warezolt mp3-ak csúcskorára. Mint zenész, ha egyáltalán nevezhetem így magam, elsősorban a lemezeladásokat, a lemezkiadókat és úgy unblock a kézzel fogható, tulajdonodban lévő zenét ölte meg 100%-ban a formátum. Nem leszek álszent, természetesen én is digitalizálódtam és a teljes zenekészletem erre a formátumra épül. Az egyetlen hátránya az, hogy sok-sok innen-onnan warez-olt zene minősége picit silányabb. 2017-re a digitális lemezboltoknak köszönhetően ez a probléma is leminimalizálódott, hiszen majdnem a kész studió minőségű anyagokat vásárolhatjuk meg, potom összegekért. Ezzel vissza is kanyarodtam a válasz első felére, hogy mi is a legnagyobb hátránya… 🙂🙂

Hallhatóan rosszabb minőségű egy 320kbit/s kódolású mp3, mint egy wav fájl?

Nos azt kell hogy mondjam, hogy ehhez nem kell akkora vájtfülű zenehallgatónak lenni hogy feltűnjön a 320 kbps és a wav hangminősége között. A wav a színtiszta, tömörítésektől mentes hangkép, aminek sokkal szebb és teltebb az összhatása. Ezt talán egy telefonos hangszóróból lehet érzékeltetni.

Ha választhatsz, akkor melyik formátumot használod leginkább saját munkáid tárolására?

A korszerű és hangzásban profi DAW szoftvereknek köszönhetően elég profi az mp3 render része szinte márkanévtől függetlenül… Legyen az FL Studio, Cubase, Studio One stb… Javarészt mp3-ba mentem a saját dolgaimat, viszont ha egy zene hivatalos megjelenése előtt áll az előadó, szinte kutyakötelessége azonnal a wav fájlt csatolni közvetlen az mp3 mellé. (Plusz a jobban sikerült produkcióim végleges master verzióját szintén wav-ként mentem ki.) 

The End?

Összefoglalva elmondható, hogy a licenc díj szedésének vége nem azonos a formátum halálával. Erre még jó pár évet kell várnunk. Leginkább akkor fog bekövetkezni, ha majd a digitális letöltő portálok végre mp3 és wav formátumokon kívül mást is kínálnak majd.