Всякому людині для роботи потрібен інструмент. Так вже вийшло, що розумним людина почала називатися саме з моменту застосування інструменту для будь-якого виду діяльності (формулювання кульгає, але в цілому це так). Власне, будь-який музикант, будучи людиною розумною, повинен вміти хоча б в тій чи іншій мірі володіти музичним інструментом. Однак в рамках даної статті мова піде не про музичному інструменті в звичному розумінні (гітара, фортепіано, трикутник …), а про інструмент, який в подальшому необхідний для обробки звукового сигналу. Мова піде про звуковому інтерфейсі.
Теоретична основа
Обмовимося відразу, звуковий інтерфейс, аудіо інтерфейс, звукова карта – в рамках викладу є контекстуальними синонімами. Загалом, звукова карта – це якась підмножина звукового інтерфейсу. З точки зору системного аналізу, інтерфейс – це щось, що призначене для взаємодії двох і більше систем. У нашому випадку, системи можуть бути приблизно такими:
- диктофон (мікрофон) – система обробки (комп’ютер);
- система обробки (комп’ютер) – звуковідтворювальний пристрій (колонки, навушники);
- гібриди 1 і 2.
Формально, все що необхідно простій людині від звукового інтерфейсу – це зняти дані з пристрою запису і віддати їх комп’ютеру або навпаки, забрати дані з комп’ютера, відправивши їх на пристрій відтворення. Під час проходження сигналу через звуковий інтерфейс проводиться спеціальне перетворення сигналу для того, щоб приймаюча сторона змогла надалі цей сигнал обробити. Пристрій відтворення (кінцевий) так чи інакше відтворює аналоговий або синусовий сигнал, який виражається у вигляді звукової або пружної хвилі. Сучасний комп’ютер працює з цифровою інформацією, тобто інформацією, яка закодована у вигляді послідовності нулів та одиниць (кажучи більш точним мовою, у вигляді сигналів дискретних смуг аналогових рівнів). Таким чином, на звуковий інтерфейс накладається зобов’язання щодо перетворення аналогового сигналу в цифровий і / або навпаки, що власне і є ядром звукового інтерфейсу: цифро-аналоговий і аналогово-цифровий перетворювач (ЦАП і АЦП або DAC і ADC відповідно), а також обв’язка в вигляді апаратного кодека, всіляких фільтрів тощо.
Сучасні ПК, ноутбуки, планшети, смартфони та ін., Як правило, вже мають вбудовану звукову карту, що дозволяє записувати і відтворювати звуки, при наявності пристроїв запису і відтворення.
Тут-то і виникає один з найбільш поширених питань:
чи можна використовувати вбудовану звукову карту для звукозапису та / або обробки звуку?
Відповідь на це питання досить неоднозначна.
Як працює звукова карта
Розберемося, що ж відбувається з сигналом, який проходить через звукову карту. Для початку, спробуємо зрозуміти, як же цифровий сигнал перетворюється в аналоговий. Як сказано раніше, для подібного роду перетворення використовується ЦАП. Не будемо вдаватися в нетрі апаратної начинки, розглядаючи різні технології і елементну базу, просто позначимо «на пальцях», що ж відбувається в «залізі».
Отже, у нас є якась цифрова послідовність, яка представляє собою звуковий сигнал для виведення на пристрій.
111111000011001001100101010100111111001100101000000110100001011101100110110001
00000001000110001010111110010100010010110011101111111110111001111001110010010
Тут кольорами позначені закодовані маленькі шматочки звуку. Одна секунда звуку може бути закодована різною кількістю таких шматочків, число цих шматочків визначається частотою дискретизації, тобто, якщо частота дискретизації становить 44.1 кГц – то одна секунда звуку буде розділена на 44100 таких шматочків. Кількість нулів і одиниць в одному шматочку визначається глибиною дискретизації або квантуванням, або, попросту, розрядністю.
Тепер, щоб уявити, як працює ЦАП, згадаємо шкільний курс геометрії. Уявімо, що час – це вісь X, рівень – це Y. На осі Х відзначаємо кількість відрізків, яке буде відповідати частоті дискретизації, на осі У – 2n відрізків яке буде означати кількість рівнів дискретизації, після чого, поступово відзначаємо точки, яким будуть відповідати конкретні звукові рівні.
Варто відзначити, що реально, кодування за вказаною вище принципом матиме вигляд ламаної (помаранчевий графік), однак під час перетворення застосовується т.зв. апроксимація до синусоїду, або просто наближення сигналу до виду синусоїди, що призведе до згладжування рівнів (блакитний графік).
— Дивись також: VST 2 чи VST 3 – в чому різниця і що краще? —
Приблизно так буде виглядати аналоговий сигнал, який виходить в результаті декодування цифрового. Варто відзначити, що аналогово-цифрове перетворення проводиться з точністю до навпаки: кожні 1 / частота_діскретізаціі секунд знімається рівень сигналу і кодується виходячи їх глибини дискретизації.
Отже, як працюють ЦАП і АЦП розібралися (більш-менш), тепер варто розглянути які параметри впливають на кінцевий сигнал.
Основні параметри звукової карти
В ході розгляду роботи перетворювачів ми познайомилися з двома основними параметрами, це частота і глибина дискретизації, розглянемо їх докладніше.
Частота дискретизації – це, грубо, кількість часових відрізків на які ділиться 1 секунда звуку. Чому ж для звукорежисера так важливо мати звукову карту, яка здатна працювати на частоті вище ніж 40 кГц. Це пов’язано з т.зв. теоремою Котельникова (так-так, знову математика). Якщо тривіально, то, згідно з цією теоремою, при ідеальних умовах, аналоговий сигнал може бути відновлений з дискретного (цифрового) як завгодно точно, якщо частота дискретизації більше ніж 2 частотні діапазони цього самого аналогового сигналу . Тобто, якщо ми працюємо зі звуком, який чує людина (~ 20 Гц – 20 кГц) то частота дискретизації буде (20 000 – 20) х2 ~ 40 000 Гц, звідси і де-факто стандарт 44.1 кГц, це частота дискретизації щоб найбільш точно закодувати сигнал плюс ще трохи (це, звичайно ж, перебільшено, оскільки цей стандарт заданий компанією Sony і причини набагато більш прозаїчні). Однак, як було сказано раніше, це в ідеальних умовах. Під ідеальними умовами розуміється наступне: сигнал повинен бути нескінченно протяжним за часом і не мати сингулярностей у вигляді нуля спектральної потужності або пікових сплесків великої амплітуди. Само собою зрозуміло, що типовий звуковий аналоговий сигнал не підходить під ідеальні умови, з огляду на те, що цей сигнал кінцевий за часом і має сплески і відходи в «нуль» (грубо кажучи, має тимчасові розриви).
Глибина дискретизації або розрядність – це кількість ступенів числа 2 визначальне на скільки інтервалів буде ділитися амплітуда сигналу. Людина, через недосконалість свого звукового апарату, як правило, відчуває комфорт в сприйнятті при розрядності сигналу не менше 10 біт, тобто 1024 ступені, подальше збільшення розрядності людина навряд чи якось відчує, чого не можна сказати про техніку.
Як видно з вищесказаного, при перетворенні сигналу звукова карта йде на певні «поступки».
Все це призводить до того, що результуючий сигнал не буде в точності повторювати вихідний.
Проблеми при виборі звукової карти
Отже, інженер по звуку або музикант (виберіть своє) купив комп’ютер з новенькою ОС, крутим процесором, великим об’ємом оперативної пам’яті з вбудованою в материнську плату звуковою картою яка розрекламована виробником, має виходи для забезпечення 5.1 звукової системи, ЦАП-АЦП має частоту дискретизації 48 кГц (це вже не 44.1 кГц!), 24 бітну розрядність і таке інше … На радощах інженер встановлює ПО для звукозапису та виявляє, що дана звукова карта не може одночасно «знімати» звук, накладати ефекти і тут же миттєво відтворювати. Звук нехай і виходить дуже якісним, проте між моментом, коли інструмент відтворить ноту, комп’ютер обробить сигнал і відтворить пройде певний час або, кажучи по-простому виникає лаг. Дивно, адже консультант з ельдорадо так хвалив цей комп’ютер, розпинався про звукову картку і взагалі … а тут … ех. З горя, інженер, йде назад в магазин, віддає куплений комп’ютер, доплачує ще нечувану суму, щоб замість повернутого купити комп’ютер з ще більш потужним процесором, великим об’ємом оперативної пам’яті, звукової карткою на 96 (!!!) кГц і 24 біт і … в результаті те ж саме.
Насправді, типові комп’ютери з типовими вбудованими звуковими картами і стічними драйверами до них, спочатку не призначені для того, щоб в режимі, наближеному до реального часу обробляти звук і відтворювати його, тобто не призначені для VST-RTAS обробки. Справа тут зовсім не в «базової» начинці у вигляді процесор-оперативна пам’ять-жорсткий диск, кожен з цих компонентів здатний на такий режим роботи, проблема в тому, що дана звукова карта, часом, просто не «вміє» працювати в режимі реального часу .
При роботі будь-якого комп’ютерного пристрою з огляду на різниці в швидкостях роботи виникають т.зв. затримки. Це виражається в очікуванні процесором набору даних, які необхідні для обробки. Крім цього, при розробці як операційної системи, так і драйверів, а також прикладного ПО, програмісти вдаються до так званої створення т.зв. програмних абстракцій, це коли кожен вищестоящий шар програмного коду «приховує» всю складність нижчестоящого рівня, надаючи на своєму рівні лише найпростіші інтерфейси. Іноді таких рівнів абстракцій набирається десятки тисяч. Такий підхід спрощує процес розробки, але збільшує час проходження даних від джерела до одержувача і навпаки.
Насправді, лаги можуть виникати не тільки у вбудованих звукових карт, але і тих, які підключаються через USB, WireFire (земля йому пухом), PCI і ін.
Щоб уникнути подібного роду лагів, розробники використовують обхідні шляхи, які дозволяють позбутися від непотрібних абстракцій і програмних перетворень. Одним з таких рішень є всіма улюблений ASIO для ОС Widows, JACK (не плутати з роз’ємом) – для Linux, CoreAudio і AudioUnit – для OSX. Варто зазначити, що у OSX і Linux все відмінно і без «милиць» як у Windows. Проте, не кожен пристрій здатний працювати з необхідною швидкістю і необхідною точністю.
Припустимо, що наш інженер / музикант відноситься до розряду кулібіних і зміг налаштувати JACK / CoreAudio або змусити працювати свою звукову карту з ASIO-драйвером фірми «народний промисел».
У кращому випадку, таким чином наш майстер зменшив лаг з пів секунди до майже прийнятних 100 мсек. Проблема останніх мілісекунд криється до всього іншого і у внутрішній передачі сигналу. При проходженні сигналу від джерела через інтерфейс USB або PCI до центрального процесора, сигнал курирує південний міст, який власне і займається тим, що працює з більшою частиною периферії і безпосередньо підпорядковується центральному процесору. Проте, центральний процесор – персонаж важливий і зайнятий, тому у нього не завжди знайдеться час ось-прямо-зараз обробляти звук, тому нашому майстру доведеться або змиритися з тим, що ці 100 мсек можуть «скакати» на ± 50 мсек якщо не більше. Рішенням даної проблеми може бути покупка звукової карти з власною мікросхемою для обробки даних або DSP (Digital Signal Processor).
Як правило, більша частина всіх «зовнішніх» звукових карт (т.зв. ігрових звукових карт) має подібного роду співпроцесор, проте він досить негнучкий для роботи і призначений по суті для «улучшайзінга» відтвореного звуку. Звукові карти, які спочатку призначені для обробки звуку мають більш адекватний співпроцесор, або, в граничному варіанті, такий співпроцесор продається окремо. Перевагою використання співпроцесора є той факт, що в разі його застосування, спеціальне програмне забезпечення буде обробляти сигнал, практично не використовуючи центральний процесор. Недоліком такого підходу може служити ціна, а також «заточка» обладнання для роботи зі спеціальним програмним забезпеченням.
— Дивись також: 10 безкоштовних VST синтезаторів в вашу колекцію —
Окремо, хотілося б відзначити інтерфейс сполучення звукової карти і комп’ютера. Вимоги тут досить прийнятні: для досить високій швидкості обробки буде досить таких інтерфейсів як USB 2.0, PCI. Звуковий сигнал насправді не є скільки-небудь великим об’ємом даних, як, наприклад, відеосигнал, тому вимоги мінімальні. Однак додам ложку дьогтю: протокол USB не гарантує 100% доставку інформації від відправника одержувачу.
З першою проблемою визначилися – великі затримки при використанні стандартних драйверів або велика ціна за використання звукової карти з адекватною затримкою.
Раніше ми визначилися, що домогтися ідеальної передачі аналогового сигналу не така вже й проста задача. На додаток до цього, варто згадати шуми і похибки, які виникають в процесі зняття / перетворення / передачі сигналу як даних, оскільки, якщо згадати фізику, будь вимірювальний прилад має свою похибкою, а будь-який алгоритм своєю точністю.
Жарт з області радіотехніки: в радіозв’язку є так звані Q-коди, трьохбуквені позначення різних питань-відповідей, що застосовуються для скорочення числа переданих символів. Один з неофіційних кодів «QZZ» розшифровується як «Це фон 60 Гц або ви хропете?», Тут 60 Гц – це паразитное фонове випромінювання частоти змінного струму.
Даний жарт дуже показовий з огляду на те, що на роботу звукової карти також впливає випромінювання розташованої поруч апаратури, аж до ультразвуку, видаваного центральним процесором під час роботи. До всього іншого варто додати спотворення в характеристику записуваного / відтвореного сигналу які залежать від кінцевого пристрою (мікрофона, звукознімача, динаміку, навушників та ін.). Найчастіше для маркетингу виробники різних звукових пристроїв свідомо збільшують можливу частоту відтвореного сигналу, від чого у людини, який вчив біологію і фізику в школі виникає цілком усвідомлений питання «а навіщо, якщо людина не чує поза діапазону 20-20кГц?». Як кажуть, в кожній правді є частка неправди. Дійсно, дуже багато виробників лише на папері позначають більш якісні характеристики у свого обладнання. Проте, якщо все-таки виробник дійсно зробив пристрій, який здатний зняти / відтворити сигнал в трохи більшому діапазоні частот, про покупку даного обладнання треба хоч ненадовго, але задуматися.
Справа ось у чому. Всі прекрасно пам’ятають, що таке АЧХ, красиві графіки з нерівностями і іншим. При знятті звуку (розглянемо тільки цей варіант), мікрофон відповідним чином його спотворює, що характеризується нерівностями його АЧ-характеристики в межах того діапазону, який він «чує».
Таким чином, маючи мікрофон, який здатний зняти сигнал в стандартних межах (20-20к) ми отримаємо спотворення лише на цьому діапазоні. Як правило, спотворення підкоряються нормальному розподілу (згадуємо теорію ймовірностей), з невеликими вкрапленнями випадкових похибок. Що буде, якщо ми при інших рівних умовах розширимо діапазон знімається сигналу? Якщо слідувати логіці – то «шапка» (графік щільності ймовірності) розтягнеться в бік збільшення діапазону, тим самим змістивши спотворення за межі даного нас чутного діапазону.
На практиці, все залежить від розробника устаткування і слід дуже ретельно це перевіряти. Проте, факт залишається фактом.
Якщо повернутися до нашого залозу, то, на жаль, не все так райдужно. Аналогічно заявами розробників мікрофонів і динаміків, виробник звукових карт також часто прибріхують щодо режимів роботи своїх пристроїв. Іноді для конкретної звукової карти можна бачити, що вона працює в режимі 96К / 24біт, хоча на ділі це все ті ж 48к / 16біт. Тут все може бути в тому, що в межах драйвера звук дійсно може бути закодований з зазначеними параметрами, хоча реально звукова карта (ЦАП-АЦП) не може видати необхідні характеристики і просто відкидає старші розряди у глибини дискретизації не пропускаючи частину частот у частоти дискретизації. Цим свого часу дуже часто грішили найпростіші вбудовані звукові карти. І хоча, як ми з’ясували для людського слуху цілком достатньо таких параметрів як 40к / 10біт, для обробки звуку цього буде замало через внесених спотворень в процесі обробки звуку. Тобто, якщо інженер або музикант зняв звук за допомогою середнього мікрофона або звукової карти, то в подальшому з використанням навіть кращих програм і заліза буде дуже проблематично вичистити весь шум і похибки, які були внесені на етапі запису. На щастя виробники напівпрофесійного або професійного звукового обладнання подібним не грішать.
— Дивись також: 10 кращих дешевих MIDI-клавіатур 2019 року —
Остання проблема полягає в тому, що вбудовані звукові карти просто не мають достатньої кількості необхідних роз’ємів для підключення необхідних пристроїв. За фактом, навіть джентельменський набір у вигляді навушників, і пари моніторів буде просто нікуди підключити, а вже про таких вишукуваннях як виходи з фантомним харчуванням і окремими регуляторами для кожного з каналів і зовсім доведеться забути.
Разом: перше що потрібно визначити для подальшого вибору типу звукової карти – це те, чим майстер буде займатися. Цілком ймовірно, що для чорнової обробки, коли немає потреби записувати у високій якості або для імітації «вух» кінцевого слухача може бути досить вбудованої або зовнішньої, але відносно дешевою звукової карти. Також це може стати в нагоді для початківців музикантів, якщо їм не лінь розбиратися зі зменшенням затримок при real-time обробці. Для майстрів, які займаються виключно офлайн обробкою, слід не морочитися в зменшенні затримок і акцентувати увагу на пристрої, які будуть реально видавати належні їм герци і біти. Для цього не обов’язково купувати понад дорогу звукову карту, в найдешевшому варіанті може підійти більш-менш адекватна «ігрова» звукова. АЛЕ, акцентую увагу на тому, що драйвера для таких звукових карт намагаються поліпшити звучання певним чином, що неприпустимо, оскільки для обробки необхідно отримати звук якомога більш чистий і збалансований з мінімальним вкрапленням драйверного «улучшайзінга».
Однак, якщо Вам, як майстру, необхідно пристрій, який буде відповідати вимогам щодо якості записуваного-відтвореного сигналу, а також за швидкістю обробки цього сигналу – тут доведеться або доплатити, отримавши апарат належної якості або вибрати 2 ніж можна пожертвувати: висока якість, низька ціна, висока швидкість.
Якщо ви музикант, і не хочете розбиратися у всіх складнощах сучасної обробки – замовляйте зведення та мастеринг в нашій студії, і ми зробимо все необхідне, щоб Ви отримали якісний матеріал! -> Ціни