Дяволският блог!: Кратък аудио наръчник - глава 11

В тази част ще се спра на аудиокомпресията, и за пример ще използвам мр3 аудио компресия, защото е най-масова и най-разпространена.

1. Кратко определение

Пълното название на MP3 е MPEG–1 Layer 3. Това е цифров формат за съхранение и компресиране на аудио информация, създаден с цел да намали многократно размера (до над 10 пъти) на нужната информация за възпроизвеждане на звуков сигнал и все пак да запази максимално добре звученето сравнено с оригинала.

2. Кратка история

Разработката на MPEG–1 Layer 3 (MP3) започва още през 1987 г. С разработването на предшественика му – MPEG–1 Layer 2 – в Германия от Егон Майер–Енгелен. Проектът се нарича Digital Audio Broadcast (DAB). През 1991 г. Се предоставят два пътя на развитие: Musicam (известен още като Layer 2) и ASPEC (Adaptive Spectral Perceptual Entropy Coding). Избира се първия метод заради простотата си, устойчивостта на грешки и малкото компютърна мощ нужна за създаване на такъв файл. По–късно Дж. Д. Джонстън (САЩ), Герхард Щол (Германия), Ев–Франсоа Дехери (Франция) и Карлхайнц Бранденбург (Германия) вземат идеите заложени в Musicam и ASPEC и добавят техни собствени. Така се ражда MP3 алгоритъмът. По–късно, на 7 юли 1994 г., Фраунхоферският институт за интегрални схеми (Fraunhofer IIS) със сътрудничеството на университета в Ерланген пускат първия софтуерен MP3 енкодер – l3enc. Първоначално файловото разширение е било .bit, но от обществото Фраунхофер на 14 юли 1995 г. Решават да го сменят на .mp3.

3. Sampling rate и bitrate

За да се разбере по–добре какво е sampling rate, ще трябва първо да се спра на термините continuous signal, descrete signal и sample. Continuous signal (постоянен сигнал) е всеки аналогов сигнал, той е непрекъснат във времевото пространство. Този сигнал трябва да бъде превърнат в descrete signal за да се възпроизведе цифрово – това е сигнал раздробен на дребни частици, наречени семпли (sample). Това е все едно да се разположат точки по координатната система за да може след това по тези точки да се изгради цялата вълна. Sampling rate (Sampling frequency) – честотата на семплиране определя броя на семплите за 1 сек., които се вземат от постоянния сигнал за да се създаде descrete сигнала. Измерва се в херци (Hz). Според теоремата на Найкуист–Шанън–Котелников, за да се възпроизведат даден диапазон от честоти, честотата на семплиране трябва да е двойно по–висока от максималната реална честота, която искаме да постигнем. Да вземем за пример най–обикновен аудио компакт диск, той има честота на семплиране 44,100 Hz (или 44,1 khz). Това значи, че той може успешно да възпроизвежда честоти до около 22 050 Hz (или 22,05 khz). Сравнено с възможностите на човешкия слух, това е повече от достатъчно. За информация ето и списък с някои от по използваните честоти на семплиране:

8,000 Hz – телефон, достатъчна за човешка реч

22,050 Hz – радиоточка

32,000 HZ – Телевизия, радиостанции, купешки аудиокасети

44,100 Hz – купешки аудио дискове, MPEG–1, VCD

48,000 Hz – цифровата телевизия, HDTV, DVD, DAT, филми и професионално аудио, максимумът на мр3 формата

96,000 Hz – DVD–Audio,

192,000 Hz– Blue–ray дисковете и HD–DVD (High–Definition DVD)

4. Resolution: 8 и 16 битова разделителна способност.

Трябва да спомена че звука който чувате е съвкупност от синусоиди*, подредени в редове на Фурие**

*вълнообразна крива в математиката, по точно в геометрията, в раздел тригонометрия, която описва функцията синус – Sin, която се движи в интервала от –1 до +1

**Фурие е френски физик и математик, открил зависимостите и закономерностите в подреждането на синусоидите в звуковите вълни, и затова носи неговото име.

При разделителна способност 8 бита, интервалите от –1 до 0 и от 0 до +1 се делят всеки на по 256 части (в интервала 0 – 255 като 0 се приема за стойност, за това са общо 256), като промените и преходите в звученето не са плавни и се чува как затихва или се усилва на етапи. Нарушава се плавното звучене.

При Разделителна способност 16 бита, интервалите от –1 до 0 и от 0 до +1 се делят всеки на по 65536 части, (в интервала 0 – 65535 като 0 се приема за стойност, за това са общо 65536), като промените и преходите в звученето са много по–плавни и много по–гладки, се чува как затихва или се усилва плавно без да се нарушава плавното звучене.

5. Как работи mp3 форматът

MP3 е от т.нар. Lossy файлови формати. Думата ”lossy” произлиза от думата ”loss”, която значи ”загуба”. Това значи, че при компресиране има реална загуба на информация. Тук изниква въпросът „Как е възможно да се изхвърли около 90% от аудио информацията без да се навреди на качеството на звука?”

Чрез използване на три основни техники за компресиране. Ето ги и тях:

Perceptual Coding – психоакустичен модел (кодиране на базата на човешкото възприятие) – това е определено най–важният метод използван в MP3. Този принцип се гради на метода на изхвърлянето на информация, която човешкото ухо не може да чуе поради несъвършенството си (много високи или ниски честоти) или звуци замаскирани от други. Предполагам първото е ясно - премахването на честотите извън диапазона, които човешкото ухо възприема. За второто ще дам два примера. Всеки, който е слушал грамофонна плоча знае за онези пукания и леко пращене, които се чуват. При усилване на звука те вече не се чуват. Те не са изчезнали, просто са „замаскирани” от по–силните звуци. Ето още един пример: представете си разходка по някой хълм. Чува се поточе, птички пеят, овца блее – въобще идилия. Изведнъж, от нищото, се появяват няколко реактивни самолети за поредното въздушно учение. В един момент единственото, което чувате, е заглушителния рев на реактивни двигатели. Нито поточето е спряло да тече, нито птичките са спрели да пеят, нито овцата е спряла да блее. Тези звуци още са там някъде, но вече не се чуват, защото са заглушени от други, много по–силни. Ако имахте запис на точно тези събития и използвате lossy енкодер, то той ще премахне именно тези звуци, които не се чуват и така допълнително ще намали размера. Идеята на тази методика при mp3 е откриване и елиминиране на подобни звуци и премахване на чесоти, извън диапазона който човешкото ухо чува.

Повечето хора като чуят че става дума за качество и скачат като скакалци, без да си дават труда да обърнат внимание на това как те самите възприемат музиката в различните случаи. Ще ви дам за пример двете крайности, как се възприема звука, пример 1, е когато вашето съзнание е почти невъзприемчиво към подробностите понеже е заето с по-важни неща от възприемането на звука, и пример 2 когато вашето съзнание възприема всички детайли, тъй като в момента, няма какво да го ангажира и разсейва и то може да се съсредоточи изцяло върху звука.

Пример 1:

Когато си записвате музика за колата, да ви прави компания като карате, като карате, в града, където движението е натоварено и се изисква повишено внимание от вас като шофьор, основното ви внимание е насочено към пътя, пътната обстановка и какво прави колата, и какво правят околните, така че и да е с влошено качество, когато основното ви внимание е насочено другаде а музиката дрънка колкото да ви прави компания, не усещате разликата. За това при шофиране особено в града, където движението е натоварено и се изисква повишено внимание от вас като шофьор, дали е 320 kbps CBR или 112 kbps CBR е почти без значение.

Пример 2:

Ако сте си вкъщи, опънали сте се на кревата на тихо и на спокойно, няма какво да изисква вниманието и концентрацията ви, няма какво да ви разсейва, тогава вниманието ви се концентрира изцяло върху музиката. Тогава там ще чуете разликата между 224 kbps и 256 kbps, разликите между VBR и CBR също се усещат.

В ежедневните ситуации, вие се намирате между тези две крайности, по-близо към едната, или по-близо към другата, според ситуацията в която сте попаднали в момента.

The Bit Reservoir – това е резервоар за битове. Той складира останалите битове от даден по–прост фрейм за да се използват в някой по–сложен. Така се оползотворяват по–рационално.

Има още една техника, която се използва за подобряване на качеството при компресията и тя се нарича Joint Stereo. Тук ще се спра по–подробно, защото това е един от митовете при mp3 компресията, който е адски труден за изкореняване. Много хора вярват, че истинското стерео е по–добро от Joint Stereo, но са в заблуда. Те вярват, че при този метод се губи качество, но това само показва колко малко са запознати с методиката на Joint Stereo режима. Създателите на Joint Stereo режима са направили две много големи грешки при създаването му: 1) избрали са много объркващо име – от него човек може да изходи, че двата канал са някак съединени, което всъщност няма нищо общо с истината и 2) дали са това име на два напълно различни метода – Intensity Stereo и Mid/Side Stereo (именно този се има предвид всъщност).

Време е да обясним какво значи всеки от тези режими:

Mono mode 1 (mono)

Най–ниското качество, като вход идва стерео сигнал, левия и десния канал се осредняват и уеднаквяват с нормализация, и единия се елиминира, (няма значение кой те и двата са напълно еднакви) и полученото се записва като общ поток. Звучи монотонно, и без обем.

Mono mode 2 (Forced Stereo/Independent Channels/Dual mono) – двата сигнала се кодират отделно, но при този режим за двата сигнала се заделя абсолютно еднакво количество битрейт, т.е. Всеки разполага с 50% от битрейта. Това е много лошо, защото ако в даден момент даден канал има повече информация за енкодиране и се нуждае от повече битове от другия, то той няма да ги получи и качеството се влошава, защото се губи стерео пресъздаването. За щастие този режим не се използва вече. Идеята на този формат не е кодиране на музика. Този формат е специфичен и е създаван специално за нуждите на медиите, когато се прави връзка между апаратната и студиото в друга държава/ друг град (радио мостове, теле мостове), когато водещият или преводача трябва да получава информация от две места едновременно.

Intensity Stereo – единият от режимите под шапката на Joint Stereo. Точно на него терминът Joint Stereo приляга повече, защото комбинира левия и десния канал и където са почти еднакви, ги кодира в Mono. По този начин се губи много от стерео ефекта и качеството пада значително. Този режим е предназначен за битрейти от 96 Kbps или по–ниски, когато размерът е важен, а качеството – не. В днешно време този режим се използва от енкодерите именно от 96 Kbps и надолу. Над този битрейт всички енкодери използват Mid/Side Stereo.

Mid/Side Stereo – вместо да се енкодират двата канала отделно, енкодерът не складира стандартните Left (ляв) и Right (десен) канали, а Mid (среден) и Side (страничен). В средният канал се складират еднаквите стойности (средно аритметично) на левия и десния канал – (L+R)/2. В страничният канал се складират различията на оригиналните ляв и десен канали – (L–R)/2. Реално погледнато информация не се губи, а просто се пренарежда за да заема по–малко място, а освободените битове се използват за по–сложни фреймове (кадри), които – логично – изискват и повече битове за да се пресъздадат по–добре. Тъжният факт е, че много хора си мислят, че този режим изхвърля информация, което няма нищо общо с истината. Този принцип на компресия се използва и в Lossless кодеците, при които НЯМА и капка загуба на сигнал и за които ще стане въпрос по–късно. А щом се използва при тях, значи и при него също няма загуба. За успокоение ще добавя, че всеки уважаващ себе си енкодер проверява за всеки фрейм дали ще има полза от Mid/Side Stereo и ако има твърде много информация за енкодиране, ще премине на обикновено стерео. Всъщност се получава, че Joint Stereo е или равнопоставено или по–добро като качество от обикновеното стерео, но НЕ и по–зле. Поне така е на теория. Тънкостта се крие именно в правилното определяне на нужния метод за всеки фрейм (кадър). Процесът за определяне в днешно време е далеч от съвършенството, но все пак е достатъчно развит за да осигури достатъчно добро качество на звука.

Тук някой може да зададе изпълненият с невежество въпрос защо след като Joint Stereo е толкова добър, не се използва при аудио дисковете на мястото на обикновеното стерео. На такъв човек е трудно да се обясни точно защо, защото явно той просто не е запознат със самата идея на Joint Stereo. Самият метод е изцяло създаден за спестяване на колкото се може повече битове при компресия, които да отиват там, където наистина е нужно. При аудио дисковете няма компресия и – следователно – цялата информация си е налице, затова просто няма смисъл – няма да се усети никаква реална разлика. Другата причина е, че Joint Stereo е малко по–сложен метод, докато обикновеното стерео е по–опростен.

Stereo – двата канала се енкодират отделно, но енкодерът решава за всеки фрейм поотделно на кой канал да зачисли повече битове в зависимост кой от двата е по–динамичен. В даден фрейм левият канал може да получи 60%, а десният – 40%, докато в друг фрейм левият – 38%, а десният – 62%. Примерите са произволни.

5. Bitrate – количеството битове за единица време използвани за пресъздаване на постоянен сигнал. Kbps (Kilobits per second) – килобити в секунда. Логично, колкото повече, толкова по–реално и по–добро е пресъздаването – т.е. Е по–високо е качеството.

По–популярните битрейти: 64, 72, 96, 112, 128, 160, 192, 224, 256 и 320.

Какво значи VBR, ABR, CBR?

Постоянна компресия – CBR – Constant bitrate

Това е най–простият начин за компресия на мр3. Старите плейъри (програми) и старите звукови карти могат да просвирват само него. Представлява постоянна компресия, за всички части на една песен. По–простите елементи звучат по–добре а по–сложните по–зле. Постоянна компресия и непостоянно качество. При тях може да се предвиди точният размер на файла. Има формула по която може да се изчисли и обема на файла. Начина за изчисление е следният:

Краен размер на файла = степен на компресия умножен по брой секунди резултата разделен на 8, за да може битовете да се обърнат в байтове.

Примерно ако имате песен с дължина 3 минути и 16 секунди, със степен на компресия 128 килобита за секунда, формулата изглежда така 196 секунди = 3 минути и 16 секунди 3х60 секунди=180

180+16=196 секунди

(128x196):8=3136 килобайта

Ако същата песен е записана в обикновен WAV файл с параметрите по подразбиране се получава

44,1х2 (за ляво и дясно на стереото)х2 за 2 байта на всеки семпълх196 секунди=34 574,4 килобайта.

Степента на компресия се изчислява като разделите обема на wav файла на обема на mp3 файла.

34574,4/3136= 11,025 пъти по–малък файл.

Разбира се това е само приблизителна сметка, която не включва байтовете за служебна информация на мр3 файла, не включва байтовете за заглавка на файла и не включва байтовете за id3v1/id3v2 таговете, където има описани подробности за файла като изпълнител, албум, година на издаване, стил.....

Но като цяло, като ориентир, за компресия от 128 kbps може да се счита приблизително – мегабайт на минута – ((128X60)/8 = 960KB, приблизително 1MB)

Варираща компресия със среден показател за качество (ABR) – Average Bitrate

Примерно казвате на енкодера да се придържа към качеството на 160 килобита равномерно качество, на песента, в рамките на интервала, 112 – 192 килобита, като мр3 енкодера ще избира най? Близката до 160 килобита степен на компресия, като за по–сложните части на компресията използва, по? Малка компресия, над 160 килобита под 192 както е в нашия пример, а за по? Простите използва степен на компресия над 112 но под 160, но винаги качеството ще се върти около 160 килобита, от там и варираща компресия със среден показател за качество.

Варираща компресия (VBR) – Variable bitrate

Това е най–съвършеният вид мр3, предлага най–високо качество, предлага и най–равномерно качество, и с голям интервал в който компресията да варира свободно. В този режим единственият критерии около който се върти всичко е исканото от потребителя, качество, а всичко друго, и степента на компресия се избира за всеки фрейм се съобразява според исканото качество. Тук няма среден показател около който да се върти всичко, тук важно е само качеството искано от потребителя и всеки фрейм се компресира сам за себе си, и му се прикача CRC, целта е най–високо качество, най–равномерно качество и най–малък файл едновременно. Това се води и свое го рода 2 pass encoding защото енкодера 1 определя коя е най-добрата степен на компресия за даденият фрейм, после определя кои честоти да се премахнат и останат, за да се получи максимално качество в избраната степен на компресия.

За да няма проблем, при МР3 с варираща компресия, и за да може този тип компресия да работи коректно, трябва да зададете качество, трябва за зададете интервал от минимална и максимална компресия в голям диапазон, и алгоритъм на варираща компресия, но ако това условие не се спази, не се знае какъв ще е крайният резултат, примерно:

Високо качество, в интервала 112 – 320 килобита в секунда с алгоритъм VBR–OLD. Така енкодера, ще прави следното. Взема фрейм с проста музика, вижда коя е максималната компресия при която исканото от потребителя качество не се губи – в случая с избрания алгоритъм, кога шума и изкривяванията са в допустимите за исканото качество граници, и го компресира с тази степен, слага му CRC и продължава, вижда следващият фрейм, там е сложна композиция. Съответно енкодера избира максималната компресия при която има качеството искано от потребителя, тук има, но на по–сложният фрейм избира по–ниска компресия, компресира го по–малко, за да може да не се наруши качеството, като го компенсира, слага му crc и продължава напред, със следващият фрейм.

Вариращата компресия има, 2 основни алгоритъма VBR – OLD и VBR – NEW които работят по различен начин.

VBR – OLD старият алгоритъм, който е оптимизиран за качество

VBR – NEW новият алгоритъм, който е оптимизиран за скорост на енкодване

VBR – OLD дава по-високо качество на енкодване сравнен с VBR – NEW.

VBR - NEW дава по-висока скорост на енкодване в сравнение с VBR - OLD.

При opensource L.A.M.E. Encoder има и един трети алгоритъм който се казва VBR – MTRH. Този алгоритъм сам по себе си не е нов алгоритъм, Той обединява силните страни на VBR – OLD и силните страни на VBR – NEW като по този начин се неутрализират техните слаби страни. Този алгоритъм като скорост и качество, е по средата между VBR - OLD и VBR - NEW.

Исканото качество, се задава и избора на параметър VBR_X където Х е показателя за качество.

Степените за компресия/ качество са

От 0 до 9 – 0, 1, 2, 3, 4.....9

Където

VBR_0 най–високото качество и най–голям файл

VBR_9 най–ниското качество и най–малък файл

За масовите нужди, и за нуждите за интернет, оптимума е VBR_4

Не забравяйте, за да може VBR компресията да работи коректно, трябва да зададете минимална степен на компресия, максимална степен на компресия, исканото качество и алгоритъм за компресиране. Ако не се спази това условие, не се знае какъв ще е крайния резултат.

Този мит също е много труден за изкореняване (както и този за Stereo и Joint Stereo).

В действителност много хора изпадат в пристъп на ужас притеснявайки се, че някой фрейм ще се енкодира с по–малко битове от нужното. Да, такава опасност на теория наистина съществува, но на практика всеки добре написан енкодер може да определя много добре кога колко бита да зачисли за да се получи оптималния резултат. Колкото и да не им се вярва на повечето живеещи в миналото и с остаряла информация твърдоглавци, VBR e достатъчно развита технология за да осигури отлично качество. Надали с тези думи ще мога да убедя истински фанатизираните fhg последователи, но такава е истината независимо дали им харесва или не.

6. Frequency bandwight: варира от 4000 херца до 24 000 херца

Представлява честотна лента с начална и крайна честота и широка в интервал от чуваеми честоти, които ще се чуват. Колкото повече, толкова по-добре, звука ще е по-наситен, и по-реалистичен. Загубите на качество са по-малки.

11 025 херца е ширината на честотната лента на обикновения аналогов телефон и аналоговата мобилна мрежа, евтино радио и радиоточка (някои знаят какво е радиоточка, други не...)

12 050 херца е ширината на честотната лента на цифровите телефони и GSM системите до 3-то поколение

16 000 херца е ширината на честотната лента на телевизиите и GSM 3-то и по-ново поколение и до скоро купешките касетки

22 050 херца е ширината на честотната лента на стандартното купешко СД

24 000 херца е ширината на честотната лента която е максимума на мр3 формата.

7. ID3 етикетът

Мета информация съдържаща се във всеки mp3 файл, която позволява въвеждане на изпълнител, име на песен, име на албум, жанр, година, номер на песен и коментар. Това е за ID3 v1. Проблемът е, че този стандарт позволява ограничен брой символи за въведената информация. После стандарта се разширява на ID3 v2 (и под версиите му). Той също е ограничен, но горната му граница е толкова висока, че може да се счита за неограничен. Освен това той добавя и още полета: original artist, copyright, URL и encoder. ID3 етикетът е това, което се появява, когато изберете View file info във Winamp.

8. Корекция на грешки по време на просвирването.

Тази процедура има най–висок резултат, само при MP3 с най–високо качество. За всеки фрейм от парчето, като се компресира до МР3, се създава отделно CRC, и се прикача към фрейма. Задължително е да е 16 битова разделителна способност, за да има информация която да се използва за интерполиране на повреденият участък, инак резултата от тази техника е много нисък. Преди просвирването, още в буфера, докато фрейма чака да се просвири, се проверява за годност по четност. Ако има проблем, на основата на това което е наред и на основата на CRC се интерполира този участък който има проблем. Разбира се не се получава100% възстановяване, но нивото на корекция е достатъчно че ухото да не разбере какво е станало.

9. MP3 енкодери

Ето и списък на най–известните енкодери:

Fraunhofer – това, както вече споменах, не е името на енкодера а на институцията създала го. Има доста енкодери базирани на него, които като цяло са на добро ниво. Има няколко такива: l3enc е първият и не особено добър, Mp3enc е може би най–добрият енкодер базиран на кодека Fraunhofer, Gogo не впечатлява с качество, но е много добре оптимизиран и затова е и много бърз. Версията на Radium е малко допълнително бутната (може да се тълкува и „хакната”), но това не я прави по–добра от останалите. Напротив, хич не е добра. Недостатъкът на тези енкодери (с изключение на последния) е, че са платени.

Blade – този безплатен енкодер отдавна е отживелица и работата по него е спряна преди години. Самият енкодер е и с доста лошо качество, не поддържа ABR, VBR и Joint Stereo. Няма никаква реална причина за да се използва.

Xing – използва се в продуктите на едноименната фирма – Audio Catalyst. Доста бърз енкодер, но с много сериозни проблеми в качеството. Поддържа както VBR, така и Joint Stereo и макар да е основоположникът на VBR, имплементацията на този режим в енкодера е на доста ниско ниво. Не поддържа ABR Ако наистина не ви пука и грам за качеството, не е проблем да го използвате.

Lame – истината не може да се отрича – това за момента е най–добрият енкодер. Безплатен и опенсорс, Максимално добро оползотворяване както на VBR, така и на Joint Stereo. Върху енкодера непрекъснато се работи усилено, правят се тестове непрекъснато. Енкодерът се развива постоянно. На всичкото отгоре е open–source и напълно безплатен. Има доста широка поддръжка и реално погледнато няма нито една причина да не се използва. Ако държите на реалното и достоверно пресъздаване и качество, L.A.M.E. е това което искате и ви трябва.

10. Може ли MP3 компресията да осигури добро качество?

Разбира се, че може. При добре подбран енкодер, достатъчен битрейт и добър плейър, mp3 може да звучи еднакво с оригинала без никакви проблеми. Не е изключено да се чуят дефекти дори и на 320 Kbps битрейт, (Все пак, това е компресия със загуба на качество) но файлът трябва да се слуша на много качествена апаратура, да съдържа специфична аудио информация, която да спомага за чуването на дефекта и човек трябва да знае за какво да се заслушва. Това обаче са изключително редки случаи. Далеч по вероятно е да се получава пласибо (placebo) ефекта. Това е, когато човек е толкова убеден, че дадено нещо е там, че си въобразява съществуването му дори и на практика то да не съществува. Като цяло, МР3 формата е своенравен формат, който не толерира незнание, нетърпение, прибързаност. Ако искате добри мр3 файлове, трябва да знаете точно какво искате от формата, и точно какво искате вие като качество и параметри, и да се съобразите с формата и да го направите така както на мр3 му харесва, инак ще берете ядове (личен опит). Тук съм споменал 2-те най-важни, но не и всички особености на мр3, с които трябва да се съобразите ако искате дбре направени мр3 файлове.

мр3 се справя зле с промяна на дълбочината и на честотатана дискретизация. За това използвайте файл източник, който е със същата дълбочина и ичестота на ндискретизация, като крайния мр3 файл. В случая мр3 поддържа 8 и 16 битови файлове, с честоти надискретизация от 8000 херца, до 48 000 херца. МР3 компресията се спарвя най-добре с дълбочина 16 бита и със честоти на дискретизация от 32 000 харца, 44 100 херца и 48 000 херца, защото са най-често използваните. Тук трябва да спомена една особеност на мр3 енкодерите и формата че не поддържат честоти на дискретизация над 48 000 херца и битови дълбочини над 16 бита, тоест 16 бита, 48 000 херца е максимума на формата. Ако енкодирате директно сигнал с дълбочина 24 бита или честота на дискретизация над 48 000 херца, записът излиза със сериозно влошено качество, приглушен и с кофти баналс на честотите. Ако подадете запис който е едновременно 24 бита, 96 килохерца - просто ще съсипете записа. Записа ще е тих, глух, небалансиран. МР3 компресията премахва всичко което счете за излишно, а тук ще премахва ДОСТА, и ще енкодва бавно, и ще раздува обема излишно. Първото което ще направи е 24-те бита да ги ореже на 16, и второто 96 000 херца да ги ореже на 48, така мр3 премахва голяма част от информацията, която инак би останала в крайният запис, ако изходният файл е 16 бита, 48 000 херца.

Честота от 32 000 херца се препоръчва ако смятате да сваляте записи от касетки, защото това е честотата на касетките, за които честно да ви кажа най-добрите касети, записани на най-добрите декове пак звучат по-зле от добре направен мр3 файл. Запишете ги до 16 битов wav файл, с честота 32 000 херца и после енкодирайте до мр3 с 16 бита 32 килохерца. Файлът ще излезне по-малък и ще се енкодне по-бързо. Същата честота на дискретизация, важи и за запис от ТВ, защото аудиото по ТВ, също се пуска, със честота на дискретизация от 32 000 херца. Няма смисъл за блъскате по-голяма честота на дискретизация, защото ще раздуете излишно обема на файла, без да получите подобрено качество.

Честота от 44 100 херца и дълбочина 16 бита се препоръчва, когато рипвате АудиоСД, защото това са показателите на аудио СД.

Единственият смисъл от честота 48 000 херца е ако вадите аудиото на някое двд. Тогава рипнете аудиото от ДВД от 24 бита/48 000 херца/96 000 херца до 16 бита, 48 000 херца wav файл и енкодвайте до мр3. След енкодването изтриите wav файла, и си оставате с добре направен мр3. При рипването на ДВД аудио в wav няма да изгубите чуваемо ниво на качество. Когато енкоднете този wav файл, енкодера ще го енкодне сравнително бързо и прецизно, и ще има минималните загуби на качество, характерни за формата като такъв и за енкодера който ползвате, но ще елиминирате загубите на качество от неподдържани показатели на файла източник. Като цяло ще имате бързо направен, и добре направен мр3, който ще ви радва с много добро качество.

Друга особеност на мр3, идва от композициите, мелодиите и песните като цяло. Всички знаем че в една песен има много сложни и много прости елементи. сега в една песен дали сложните са повече или простите зависи от самата песен и стила, жанра, инструментите, вокали, беквокали и прочието и прочието..... Използването на постоянна компресия, ще помогне да скапете общото звучене, защото простите елементи, могат да понесат компресията, и ще си звучат добре, и тях не ги бърка, ама за сложните, въпросът далеч не е толкова оптимистичен. Сложните елементи имат повече информация и те страдат от тази компресия, като получавате неравномерно качество. МР3 формата поддържа варираща компресия - VBR - Variable BitRatre, което е решението на този проблем. С този режим на енкодване, вие задавате само исканото качество, мр3 енкодера сам изследва всеки елемент от песента за неговата сложност, и избира индивидуално компресията която ще добринесе за компресирането на елемента до такава степен че той да остане с исканото качество. Тук имате неравномерна компресия и равномерно качество. Както и да го погледнете VBR дава по-добро качество на звучене и по-добро отношение качество на звучене спрямо обем на файла.

11. Може ли един обикновен аудио компакт диск да осигури достатъчно качествен звук спрямо „по–качествени” източници?

Може, разбира се. Фанатизираните аудиофили са били, са и винаги ще бъдат против компресията под всякаква форма. Това са същите хора, които дават и някакви луди пари за кабели (за това по–късно) и говорят глупости по адрес на обикновения компакт диск, че е недостатъчен и че Super Audio CD (SACD) или DVD Audio са далеч по–качествени формати. На теория наистина са по–качествени. На практика са съвсем друго положение. За да се оползотворят тези стандарти е нужна добра техника, но колкото и пари да се „кихат”, винаги ще има един наличен ограничител – човешкият слух. Какво значение има дали дадена апаратура може да възпроизведе 25khz, 30khz или дори 40khz, след като човешкото ухо едвам успява да чуе 16000 херца като горна граница? Домашните любимци може и да могат да се „насладят” на звука, но надали си струват такива инвестиции за да може домашния котарак да се излежава на прозореца да слуша музика по–пълноценно. Един аудио диск има всички качества за да възпроизведе същия като чуваемост звук както и DVD Audio и Super Audio CD. Всякакви твърдения на противоположното са напълно погрешни и разликите са плод на нечие въображение.

12. Какви други формати за компресия съществуват и по–добри ли са те от MP3?

MP3 определено е стар формат и в момента има алтернативи. Ето по–известните lossy енкодери:

MPC – съкращение от Musepack

+ много ефективен на средно високи битрейти

+ енкодира се и се декодира доста бързо

+ с отворен код (open source)

– не поддържа многоканалност

– има малко проблеми с търсенето (т.нар. Превъртане в песента)

– невъзможност за поточно аудио (stream)

– не поддържа по–високи честоти на дискретизация - над 48khz

– файл енкодиран в този формат не може да бъде редактиран директно

AAC – Advanced Audio Coding; официалният наследник на MP3

+ част от MPEG4 кодека

+ международен стандарт одобрен от ISO

+ поддържа много честоти на семплиране и многоканалност

+ различни енкодери базирани на кодека (itunes, Nero AAC, FAAC)

+ всеки може да си направи своя имплементация (сорс кода и спецификациите са общодостъпни)

+ доста ефективен около 150Kbps

– силно патентован

– има някои проблеми, които пречат трансформиращите кодеци

– доста сложен формат

OGG Vorbis

+ напълно безплатен както за не комерсиална, така и за комерсиална употреба

+ доста изчистен откъм спецификации и структура формат

+ доста добър за поточно аудио (stream)

+ много ефективен на средни и ниски битрейти (около 128Kbps и надолу)

+ много неразкрит потенциал

– много неразкрит потенциал ?

– понастоящем енкодирането и декодирането е сравнително не оптимизирано и изисква повечко изчислителна мощ

– ограничена официална разработка, окуражават се всякакви отделни такива

Всеки един от тези енкодери превъзхожда MP3 в поне няколко параметъра. На теория всички те са по–добри от него. На практика нещата стоят различно. Ако изключим MPC, понеже работата по него е почти зарязана, то останалите формати имат доста светло бъдеще. И AAC и OGG Vorbis имат много потенциал, който обаче за жалост все още не е оползотворен, защото това са все още нови енкодери. MP3, за разлика от тях, е на сцената от доста време и в лицето на LAME има изключително ефективен енкодер, който успешно се съревновава с останалите макар и бидейки наистина стар кодек. Ако разработката по алтернативните формати продължава с добри темпове, то те след време ще са осезаемо по–добри, но за момента още не са ошлайфайни.

13. Какво му е по–доброто на LAME от другите mp3 енкодери?

LAME е съкращение от Lame Ain't an MP3 Encoder. Е, такъв е, макар името да твърди друго. Това е най–разработваният и най–тестваният mp3 енкодер, безплатен и опенсорс, и за разлика от останалите, работата по които е преустановена, LAME се разработва и тества постоянно и се оптимизира с всяка изминала версия. Той е специално оптимизиран за да се възползва от максимално от VBR и Joint Stereo. Този енкодер прави направо чудеса от иначе стария mp3 формат и усъвършенстването му не спира. На всичкото отгоре е безплатен и опен сорс.

14. Lossless и lossy. Каква е разликата?

Lossless кодеците са режими на компресия при които няма никаква загуба на качеството, защото те са базирани на Huffman Coding – Идеята е да се открива еднакъв и повтарящ се низ от битове и да се заменя с по–кратък код. При този няма никаква загуба на качеството. Същият метод се използва и при ZIP и RAR компресията. Примери за lossless компресия – FLAC, LPAC, APE – Monkey’s audio.

Loosy кодеците действат на различен принцип – при тях се премахва се премахва информацията, която се счита за излишна – тази която ухото поради своите недостатъци няма да чуе, и се оставя тази която ухото чува. Разбира се качеството пада, и от там идва и lossy – компресия със загуби. При тези формати най-добро качество се получава когато се избере максимума на формата. Разни програми които подобряват качеството, са бутафорни измислици. Веднъж тази информация премахната, тя няма как да се върне.

15. Транскодиране ли? Що е то?

Транскодирането представлява преенкодване на звука от един формат в друг. Транскодирането се среща в 3 варианта според изходния и целевия формат. Ще се спра поотделно на всеки от тях:

Lossless –> Lossless

Няма загуба на качеството. Можете да си преобразувате между различни lossless формати, колкото ви душа иска без да се страхувате, че ще загубите и един бит. Полезно е ако ви потрябват предимствата на друг lossless формат пред настоящия ви (стабилност, съвместимост и т.н.)

Lossless –> Lossy

Реално погледнато това е същото като да обърнете и обикновен WAV файл в lossy формат. Lossless форматите са много добри за архиви (за каквото е и пример настоящото транскодиране), както вече споменах, защото от тях винаги можете да си енкодирате какъвто друг формат ви е нужен, но не заемат толкова място като WAV файловете.

Lossy –> Lossy

Това вече е често срещано явление. Най–често се среща при желание да се намали големината на дадена mp3–ка още. Ако размерът е много важен, а качеството е от много малко (или никакво) значение, тогава е няма проблеми.

Друга ситуация е, когато имате даден mp3 файл с нисък битрейт и искате да му повишите качеството като го енкодирате наново, но с по–висок битрейт. Това няма да доведе до повишаване в качеството. В най–добрия случай ще получите файл със същото качество. Размерът обаче ще нарасне.

Тоест ако качеството е важно, то транскодирането е КРАЙНО НЕЖЕЛАТЕЛЕН процес. Нека обясня защо. При компресиране на дадена песен от аудио диск имаме изхвърляне на ненужна информация за да остане само критичната за възпроизвеждане на звука. Дотук – добре. При евентуално транскодиране, mp3 файлът се обръща обратно (разгъва се) във wav и после обратно се компресира в mp3, но с различни настройки. Процесът на разгъване във wav няма да повиши качеството, защото вече информацията е изхвърлена и няма начин да се вземе отникъде. Т.е. Получавате файл със същото качество, каквото е това на mp3–ката. После обаче следва ново компресиране, при което имаме повторно пресяване на информацията и – съответно – още информация се изхвърля и качеството се влошава. Това ако смалявате файла. Ако искате да го „подобрите” имаме по–висок битрейт, но така или иначе информацията вече я няма и енкодирате същата информация с по–висок битрейт, което води до по–голям файл.

Обобщено: както при всяко преобразуване, независимо какво е то, вие или получавате файл със същия размер и влошено качество или получавате файл със същото качество, но повишен размер. И в двата случая все губите. Би трябвало да сте се досетили, но в случай, че не сте, нека поясня, че положението е абсолютно същото при запис на аудио диск от mp3–ки. Като ги записвате на аудио диск, не печелите нищо. А ако дадете този диск на някой приятел и той реши да си запише някоя песничка в mp3 ще осакати още качеството на получената mp3–ка. Така дадена песен ако премине през много сесии на Audio CD –> MP3 –> Audio CD –> MP3 …и в един момент ще започне да звучи като на баба тенджерите в мазето.

Има разпространено вярване, че на даден кабел или аудио електроника им е нужно време за „улягане”. Има се предвид време, което трябва да се прекара в работа за да достигнат оптимално състояние. При аудиотехниката, там където има механизми, предавки, ремъци, движещи се части - касетофони, лентови магнетофони, СД/ДВД плейъри, грамофони, слушалки и колони които имат движещи се части, (колоните и слушалките имат мембрани които трептят - те движат се) имат нужда от време, за да механизмите им да се раздвижат и разработят, мембраните да се отпуснат, тогава достигат оптималните си параметри на работа. Модули които нямат движещи се части - кабели, усилватели, еквилайзери, мишпултове, филтри нямат нужда от улягане, защото те са само електроника и няма движещи се части, които трябва да се разработват. Всеки добър кабел усилвател, еквилайзер, филтър, мишпулт, ще работят по еднакъв начин след 1 и след 1 000 000 часа работа. Разлика просто няма.

16. Митове и легенди ширещи се сред потребителите и аудио средите

Митове и легенди ширещи се сред потребителите.

Лъжата за тонколоните и слушалките.

Сред потребителите се шири че добри тонколони вадят по–добър звук от кои да е слушалки. Ако са някои тайванско–китайски мелези от тия по 1 стотинка за килограм – да така е, но инак всеки читав чифт слушалки, с големи наушници, които покриват цялото ухо, и по–големи говорители, превъзхождат колоните, по чисто механични причини. При слушалките мембраната е малка, тънка и лека, и при трептенето си, трепти с по–малка амплитуда и трябва да преодолее по–малко съпротивление на въздуха заради по–малката си площ. При тонколоната нещата са обратно дебела, плътна, голяма и тежка мембрана, която трепти с по–голяма амплитуда, и трябва да се справи със значително по–голямо съпротивление на въздуха заради по–голямата си площ. Това са причините, слушалките и тонколоните да звучат различно, и обикновено в полза на слушалките.

Лъжата за Surround Sound тонколоните.

Това е още един от трудните за изкореняване митове, напомпан с много реклама и маркетингови трикове. Разни 5+1, 6+1, 7+1 са само маркетингов трик. Другият проблем на тонколоните 5+1, 6+1, 7+1 е това че те изкарват осреднени ниски/баси през една точка. Картинката е че по– евтините модели смесват ниските честоти на тези няколко канала, докато се получи един общ сигнал и него пускат през бас буфера. Цифровите колони от най–висок клас решават този проблем по различен начин. Там се прави един друг номер. В даден отрязък от време звучи само едно от сателитчетата, и бас буфера му приглася, после звучи второто и бас буфера приглася различно, като за второто, после третото, и така докато се изредят всичките и цикъла се повтаря. Тази смята на колоните става много бързо. Достатъчно бързо че ухото да не усеща кака се върти, а да усеща че всички свирят едновременно. Човек има само 2 уши, и 4 тонколони са достатъчни, ако са добре избрани и добре разположени една спрямо друга и спрямо вас като слушател.

Лъжата за цифровите колони.

Още един от трудните за изкореняване митове, напомпан с много реклама и маркетингови трикове. Цифровите колони имат едно единствено предимство, и то е че има само един кабел който пренася адресирани пакети за всяка колона, а при аналоговите са няколко кабела за всяка колона по един кабел. Печелите само това че ще има по–малко кабели в които да се спъвате. Ухото е аналогов приемник и колоните винаги трябва да изкарват аналогов звук за да можете да го възприемете, инак няма да чувате нищо.

Лъжата за VBR и ABR. При VBR и ABR, всеки кадър се кодира според своята сложност. Вие задавате исканото качество, а енкодера избира максималната компресия при която исканото и зададеното от вас качеството се ЗАПАЗВА. По-простите фреймове ще се кодирират с по-голяма компресия, по-сложните с по-малка компресия, но винаги се съобразява с исканото качество. Тук освен че не губите качеството, печелите и по-равномерно качество и по-равномерна сила на звучене и по-малък по обем файл.

Лъжата за Joint Stereo.

При Joint stereo се използва Mid/side метода, който следи аудио потока. Повтарящата се информация от двата потока - common audio data, се записва като среден поток (Mid - middle - среден), а разликите, между ляво и дясно, се записват в страничния поток (Side - Страничен). Информацията не се губи, информацияат остава там, просто е записана по различен начин. Печелите 20% - 25% по-малък файл и 0% загуба на качеството.

Митове и легенди ширещи се в аудио средите

Тези митове и легенди засягат предимно аудиофилите и онази хай–енд (high–end) сфера на аудио оборудването. Някои от тях надали са познати на „простосмъртния” потребител, но осведомеността никога не е излишна.

Лъжата за кабелите

Много вманиачени аудиофили вярват, че качеството на звука зависи много от кабела, който се използва за свързване на усилвателя с озвучителните тела, както и от неговата посока – тоест според това как е обърнат се променяло и начина по който кабела влияе на звука. Компаниите, разбира се, се възползват от подобни наивни и умопомрачени хора и им предлагат обкновени кабели за някакви колосални суми. Става въпрос за цени, които достигат до над $20 000 за 2м. Кабел. Не, не съм объркал броя на нулите, говорим си за ХИЛЯДИ долари за 2 метра кабел. Не си измислям. Това, разбира се, няма голямо влияние върху основния пазар, това са по–екстремните случаи, но като цяло лъжата се поддържа и от нея страдат дори и в малко по–ниските слоеве на аудио ентусиастите. Все пак има доста хора, които много държат на качествен звук, имат добър запас от финанси, но не са особено запознати. Тогава влизат в действие служителите в магазина, които изтърсват, че един кой си кабел, който е доста по–скъп от по–обикновения, би допринесъл за по–качествен звук. Това са глупости на кутийки. Истината е, че съпротивлението, индукцията и капацитивното съпротивление са единствените фактори, които влияят върху сигнала. Да, най–голямата евтиния наистина може да се окаже недостатъчна ако купувате истински качествена апаратура и ще се наложи да се бръкнете малко повече от най–ниската възможна цена за сносни кабели и букси. Освен това ще трябва да внимавате за съпротивлението в по–дългите кабели. С това се изчерпва значението на кабела. В действителност две метални закачалки за дрехи опънати във формата на кабел няма да се справят по–зле от магически кабел за $20 000 или повече. Единственото което зависи от кабелите това е качеството и чистотата на сплавта, заради собственото съпротивление на кабела, и това дали кабела един цял, или колко пъти е бил рязан и снаждан, което определя единствено максималната му дължина, и дали е екраниран за да може да не се влияе от външни източници. Като пример ще спомена, знаете ли какво става с тонколоните, когато говорите по мобилния телефон и се доближите до кабела? Ааааа, а така, това същото досадно пукане. Екранираният кабел помага това да се намали или предотврати. Ето и компонентите изброени по важност:

1. Качество на записа

2. Озвучителни тела,

3. Усилвател

4. Плейър

5. Околната среда в която се просвирва

6. Кабели

Лъжата за улягането на техниката.

Всъщност, това е само донякъде лъжа, и до някъде не е. В Грамофони, ДАТ плейъри, СД плейъри, касетофони, и прочието плейъри в които има механизъм и предавки, тонколони и слушалки при които има трептящи мембрани, наистина след известно време работа, механизмите им се разработват и достигат оптимално работно състояние. В разните усилватели, еквилайзери, мишпултове и други стъпала, където е само електроника, както и кабелите, там улягане няма. Там си е електроника и тя си работи еднакво независимо от броя работни часове.

Лъжата за ламповите усилватели

Широко разпространено е вярването, че ламповите усилватели вадят по? Добър звук от транзисторните такива. Това е напълно невярно. Транзисторните усилватели, ако са проектирани кадърно, са напълно способни да се справят с всяко предизвикателство по? Надеждно и на по–ниска цена от ламповите си конкуренти. Разлика? Дължи се на:

1) оцветяването на звука, което явно е сметнато за добра идея от създателя на ламповия усилвател.

Всеки транзисторен усилвател може да се справи със задачата – да оцвети звука – стига на инженерът проектиращ го да му мине глупавата мисъл през главата да го направи.

2) На нечие заблудено въображение, на което толкова му се вярва, че разлика има, че дори я „чува” и страда от пласибо (placebo) ефекта.

Лъжата за обработването на дисковете

Ако преди време е имало разни спрейове и течности, с които да се подобрява качеството на звука при грамофонните плочи, то ги има и сега. Комерсиализъм. Има една разлика обаче, докато при плочите може и да има минимален смисъл от тях, то при аудио дисковете ползата е нулева. Самият диск съдържа нули (0) и единици (1). Те не могат да бъдат подобрени или влошени. Те си остават същите, с каквото и да мажете диска. Или ще бъдат прочетени, или няма да бъдат. Елементарно. Да, един прашасал и зацапан диск няма да се чете (добре), затова е нужно едно бързо забърсване с памучно парцалче или, ако наистина е много зацапан, да мине през една вода и да се подсуши. Воала, имаме си отново работещ диск. Не е нужно да се купуват специални мазила и други ненужни боклуци, те не могат по никакъв начин да подобрят качеството на един компакт диск. Дори и някой да твърди, че полза от подобни манипулации има, то той посмъртно няма да може да разпознае обработен с магически препарати диск от необработен такъв. Ако му се пуснат без да е наясно кой кой е. При СД и ДВД, Единствената полза от такива течности е АКО имате МАЛКИ и ПЛИТКИ драскотини, е те да се запълнят и да се възстанови, читаемостта на зоните под драскотините. Във всички останали случаи, подобни течности са безполезни.

Лъжата за цифровия звук

Говорейки си за плочи и дискове стигаме една много разпространена лъжа, а именно, че плочата по–добър носител на информация от компакт диска, което си е пълна измислица. Не виждам причина някой да избере пуканията на грамофонната плоча пред изпълнените с тишина цифрови пътечки на аудио диска. Освен това компакт диска има и предимство – информацията на него е изградена от единици и нули, които просто няма как да се деформират, за разлика от плочата, която си е аналогов носител. Да, възможно е даден диск да звучи по–зле от плоча, но това се дължи на по–лошо разположение на микрофони, по–лоша звукозаписна техника и/ или по–лоша обработка на материала след записа му, замърсяване на диска, а НЕ на цифровата технология на компакт диска като такава. Ако вземем два максимално добре направени записи на плоча и диск, то те ще звучат еднакво добре.

Лъжата за честотите които се чуват или не се чуват.

Ухото чува честотите от около 20 херца до към 16 килохерца при възрастен и 20 килохерца при дете. Да не забравяме че честотите са които идват по кабела са електрични импулси с определена честота, които имат магнитни свойства. Те си влияят помежду си по резонантен път. Това донякъде определя наситеността на записа. Колоните и слушалките работят на един основен принцип, когато такъв импулс бива получен, мембраната трепва. Колкото по-висока е честотата, това значи че толкова повече, импулси се подават на мембраната за единица време, и тя трепти по-бързо. Колоните и слушалките не случайно се правят с голям диапазон, който излиза извън диапазона на които ухото реагира. Това се прави заради чисто механични ограничения, които не може да бъдат елиминирани. Тези ограничения са редовният препъни камък. Искам да спомена че звученето на тонколоните и слушалките е различно, и то се дължи на механични ограничения в двата вида озвучителни тела. При слушалките мембраната е малка, тънка и лека, и при трептенето си, трепти с по–малка амплитуда и трябва да преодолее по–малко съпротивление на въздуха заради по–малката си площ. При тонколоната нещата са обратно дебела, плътна, голяма и тежка мембрана, която трепти с по–голяма амплитуда, и трябва да се справи със значително по–голямо съпротивление на въздуха заради по–голямата си площ. Това са причините, слушалките и тонколоните да звучат различно, а и колоните да се правят с по–голям обхват, защото ако се направят точно в диапазона, като се стигне до краините точи на интервала, тонколоната ще изкарва звука по–зле, защото мембраната ще изпитва затруднение да трепти, а така като е разширен диапазона, мембраната може да трепти свободно и безпроблемно в целия чуваем диапазон. Общо взето ако проявявате интерес към честотите извън интервала който се чува от човешкото ухо, питайте вашето куче, или котката на съседа, а ако сте тотално вманиачени, една консултация с домашния прилеп на батман ще ви е от полза.

Лъжата за Joint Stereo.

При Joint stereo се използва Mid/side метода, който следи аудио потока. Повтарящата се информация от двата потока - common audio data, се записва като среден поток (Mid - middle - среден) ,а разликите, между ляво и дясно, се записват в страничния поток (Side - Страничен). Информацията не се губи, информацияат остава там, просто е записана по различен начин. Печелите по-малък файл и 0% загуба на качеството.

И за финал WAV e некомпресиран формат а МР3 е компресиран формат със загуби в качеството, и в никакъв случаи не бива двата формата да се бъркат един с друг.

Дяволският блог!

Sunday, February 19, 2012

Кратък аудио наръчник - глава 11 - Аудио компресия

No comments:

Post a Comment