Для чего нужна звуковая карта (аудио-интерфейс)

Всякому человеку для работы нужен инструмент. Так уж получилось, что разумным человек начал называться именно с момента применения инструмента для какого-либо вида деятельности (формулировка хромает, но в целом это так). Собственно, любой музыкант, будучи человеком разумным, должен уметь хотя бы в какой-нибудь степени владеть музыкальным инструментом. Однако в рамках данной статьи речь пойдёт не о музыкальном инструменте в привычном понимании (гитара, фортепиано, треугольник…), а об инструменте, который в дальнейшем необходим для обработки звукового сигнала. Речь пойдёт об звуковом интерфейсе.

Теоретическая основа

Оговоримся сразу, звуковой интерфейс, аудио интерфейс, звуковая карта – в рамках изложения являются контекстуальными синонимами. В общем, звуковая карта – это некое подмножество звукового интерфейса. С точки зрения системного анализа, интерфейс – это нечто, предназначенное для взаимодействия двух и более систем. В нашем случае, системы могут быть примерно такими:

звукозаписывающее устройство (микрофон) – система обработки (компьютер);
система обработки (компьютер) – звуковоспроизводящее устройство (колонки, наушники);
гибриды 1 и 2.

Формально, всё что необходимо простому человеку от звукового интерфейса – это снять данные с устройства записи и отдать их компьютеру или наоборот, забрать данные из компьютера, отправив их на устройство воспроизведения. Во время прохождения сигнала через звуковой интерфейс производится специальное преобразование сигнала для того, чтобы принимающая сторона смогла в дальнейшем этот сигнал обработать. Устройство воспроизведения (конечное) так или иначе воспроизводит аналоговый или синусовый сигнал, который выражается в виде звуковой или упругой волны. Современный компьютер работает с цифровой информацией, то есть информацией, которая закодирована в виде последовательности нулей и единиц (говоря более точным языком, в виде сигналов дискретных полос аналоговых уровней). Таким образом, на звуковой интерфейс накладывается обязательство по преобразованию аналогового сигнала в цифровой и/или наоборот, что собственно и является ядром звукового интерфейса: цифро-аналоговый и аналогово-цифровой преобразователь (ЦАП и АЦП или DAC и ADC соответственно), а также обвязка в виде аппаратного кодека, всевозможных фильтров и пр.
Современные ПК, ноутбуки, планшеты, смартфоны и пр., как правило, уже имеют встроенную звуковую карту, что позволяет записывать и воспроизводить звуки, при наличии устройств записи и воспроизведения.

— Наушники для сведения и мастеринга —

Тут-то и возникает один из самых часто задаваемых вопросов:

можно ли использовать встроенную звуковую карту для звукозаписи и/или обработки звука?

Ответ на этот вопрос весьма неоднозначен.

Как работает звуковая карта

Разберемся, что же происходит с сигналом, который проходит через звуковую карту. Для начала, попробуем понять, как же цифровой сигнал преобразуется в аналоговый. Как сказано ранее, для подобного рода преобразования используется ЦАП. Не будем вдаваться в дебри аппаратной начинки, рассматривая различные технологии и элементную базу, просто обозначим «на пальцах», что же происходит в «железе».

Итак, у нас имеется некая цифровая последовательность, которая представляет собой звуковой сигнал для вывода на устройство.

111111000011001001100101010100111111001100101000000110100001011101100110110001

00000001000110001010111110010100010010110011101111111110111001111001110010010

Здесь цветами помечены закодированные маленькие кусочки звука. Одна секунда звука может быть закодирована различным количеством таких кусочков, число этих кусочков определяется частотой дискретизации, то есть, если частота дискретизации составляет 44.1 кГц – то одна секунда звука будет разделена на 44100 таких кусочков. Количество нулей и единиц в одном кусочке определяется глубиной дискретизации или квантованием, или, попросту, разрядностью.

Теперь, чтобы представить, как работает ЦАП, вспомним школьный курс геометрии. Представим, что время – это ось X, уровень – это Y. На оси Х отмечаем количество отрезков, которое будет соответствовать частоте дискретизации, на оси У – 2ⁿ отрезков которое будет обозначать количество уровней дискретизации, после чего, постепенно отмечаем точки, которым будут соответствовать конкретные звуковые уровни.

Стоит отметить, что реально, кодирование по указанному выше принципу будет иметь вид ломаной (оранжевый график), однако во время преобразования применяется т.н. аппроксимация к синусоиде, или попросту приближение сигнала к виду синусоиды, что приведет к сглаживанию уровней (голубой график).

— 5 плагинов, которые увеличат громкость трека без искажений —

Примерно так будет выглядеть аналоговый сигнал, который получается в результате декодирования цифрового. Стоит отметить, что аналогово-цифровое преобразование производится с точностью до наоборот: каждые 1/частота_дискретизации секунд снимается уровень сигнала и кодируется исходя их глубины дискретизации.

Итак, как работают ЦАП и АЦП разобрались (более-менее), теперь стоит рассмотреть какие параметры влияют на конечный сигнал.

Основные параметры звуковой карты

В ходе рассмотрения работы преобразователей мы познакомились с двумя основными параметрами, это частота и глубина дискретизации, рассмотрим их подробнее.
Частота дискретизации – это, грубо, количество временных отрезков на которые делится 1 секунда звука. Почему же для звукачей так важно иметь звуковую карту, которая способна работать на частоте выше чем 40 кГц. Это связано с т.н. теоремой Котельникова (да-да, опять математика).Если тривиально, то, согласно этой теореме, при идеальных условиях, аналоговый сигнал может быть восстановлен из дискретного (цифрового) сколь угодно точно, если частота дискретизации больше чем 2 частотных диапазона этого самого аналогового сигнала. То есть, если мы работаем со звуком, который слышит человек (~20 Гц – 20кГц) то частота дискретизации будет (20 000 – 20)х2 ~ 40 000 Гц, отсюда и де-факто стандарт 44.1 кГц, это частота дискретизации чтобы наиболее точно закодировать сигнал плюс еще чуть-чуть (это, конечно же, утрированно, поскольку этот стандарт задан компанией Sony и причины гораздо более прозаичны). Однако, как было сказано ранее, это в идеальных условиях. Под идеальными условиями понимается следующее: сигнал должен быть бесконечно протяжённым по времени и не иметь сингулярностей в виде нуля спектральной мощности или пиковых всплесков большой амплитуды. Само собой разумеется, что типичный звуковой аналоговый сигнал не подходит под идеальные условия, ввиду того, что этот сигнал конечен по времени и имеет всплески и уходы в «ноль» (грубо говоря, имеет временные разрывы).

Глубина дискретизации или разрядность – это количество степеней числа 2 определяющее на сколько интервалов будет делиться амплитуда сигнала. Человек, ввиду несовершенства своего звукового аппарата, как правило, ощущает комфорт в восприятии при разрядности сигнала не менее 10 бит, то есть 1024 уровней, дальнейшее увеличение разрядности человек вряд ли как-то ощутит, чего нельзя сказать о технике.

Как видно из вышесказанного, при преобразовании сигнала звуковая карта идёт на определённые «уступки».

Всё это приводит к тому, что результирующий сигнал не будет в точности повторять исходный.

Проблемы при выборе звуковой карты

Итак, инженер по звуку или музыкант (выберите своё) купил компьютер с новенькой ОС, крутым процессором, большим объёмом оперативной памяти со встроенной в материнскую плату звуковой картой которая распиарена производителем, имеет выходы для обеспечения 5.1 звуковой системы, ЦАП-АЦП имеет частоту дискретизации 48 кГц (это уже не 44.1 кГц!), 24 битную разрядность и прочее-прочее… На радостях инженер устанавливает ПО для звукозаписи и обнаруживает, что данная звуковая карта не может одновременно «снимать» звук, накладывать эффекты и тут же мгновенно воспроизводить. Звук пусть и получается весьма качественным, однако между моментом, когда инструмент воспроизведет ноту, компьютер обработает сигнал и воспроизведет пройдет определенное время или, говоря по-простому возникает лаг. Странно, ведь консультант из эльдорадо так хвалил этот компьютер, распинался про звуковую карточку и вообще… а тут… эх. С горя, инженер, идёт обратно в магазин, отдаёт купленный компьютер, доплачивает еще баснословную сумму, чтобы взамен возвращённого купить компьютер с ещё более мощным процессором, бо́льшим объёмом оперативной памяти, звуковой карточкой на 96 (!!!) кГц и 24 бит и… в итоге то же самое.

— 7 бесплатных плагинов, которые добавят теплоты в трек! —

На самом деле, типовые компьютеры с типовыми встроенными звуковыми картами и стоковыми драйверами к ним, изначально не предназначены для того, чтобы в режиме, приближённом к реальному времени обрабатывать звук и воспроизводить его, то есть не предназначены для VST-RTAS обработки. Дело тут нисколько не в «базовой» начинке в виде процессор-оперативная память-жёсткий диск, каждый из этих компонентов способен на такой режим работы, проблема в том, что данная звуковая карта, порой, просто не «умеет» работать в режиме реального времени.
При работе любого компьютерного устройства ввиду разности в скоростях работы возникают т.н. задержки. Это выражается в ожидании процессором набора данных, которые необходимы для обработки. Помимо этого, при разработке как операционной системы, так и драйверов, а также прикладного ПО, программисты прибегают к т.н. созданию т.н. программных абстракций, это когда каждый вышестоящий слой программного кода «скрывает» всю сложность нижестоящего уровня, предоставляя на своём уровне лишь простейшие интерфейсы. Иногда таких уровней абстракций набирается десятки тысяч. Такой подход упрощает процесс разработки, но увеличивает время прохождения данных от источника к получателю и наоборот.

На самом деле, лаги могут возникать не только у встроенных звуковых карт, но и тех, которые подключаются через USB, WireFire (земля ему пухом), PCI и пр.

Чтобы избежать подобного рода лагов, разработчики используют обходные пути, которые позволяют избавиться от ненужных абстракций и программных преобразований. Одним из таких решений является всеми любимый ASIO для ОС Widows, JACK (не путать с разъёмом) – для Linux, CoreAudio и AudioUnit – для OSX. Стоит отметить, что у OSX и Linux всё отлично и без «костылей» как у Windows. Тем не менее, не каждое устройство способно работать с необходимой скоростью и требуемой точностью.
Допустим, что наш инженер/музыкант относится к разряду Кулибиных и смог настроить JACK/CoreAudio или заставить работать свою звуковую карту с ASIO-драйвером фирмы «народный промысел».

В лучшем случае, таким образом наш мастер уменьшил лаг с пол секунды до почти приемлемых 100 мсек. Проблема последних миллисекунд кроется ко всему прочему и во внутренней передаче сигнала. При прохождении сигнала от источника через интерфейс USB или PCI к центральному процессору, сигнал курирует южный мост, который собственно и занимается тем, что работает с большей частью периферии и непосредственно подчиняется центральному процессору. Тем не менее, центральный процессор – персонаж важный и занятой, поэтому у него не всегда найдётся время вот-прямо-сейчас обрабатывать звук, поэтому нашему мастеру придётся или смириться с тем, что эти 100 мсек могут «скакать» на ± 50 мсек если не больше. Решением данной проблемы может быть покупка звуковой карты с собственной микросхемой для обработки данных или DSP (Digital Signal Processor).

Как правило, большая часть всех «внешних» звуковых карт (т.н. игровых звуковых карт) имеет подобного рода сопроцессор, однако он весьма негибок для работы и предназначен по сути для «улучшайзинга» воспроизводимого звука. Звуковые карты, которые изначально предназначены для обработки звука имеют более адекватный сопроцессор, или, в граничном варианте, такой сопроцессор продаётся отдельно. Преимуществом использования сопроцессора является тот факт, что в случае его применения, специальное программное обеспечение будет обрабатывать сигнал, практически не используя центральный процессор. Недостатком такого подхода может служить цена, а также «заточка» оборудования для работы со специальным программным обеспечением.

Отдельно, хотелось бы отметить интерфейс сопряжения звуковой карты и компьютера. Требования тут достаточно приемлемые: для достаточно высокой скорости обработки будет достаточно таких интерфейсов как USB 2.0, PCI. Звуковой сигнал на самом деле не является сколь-либо большим объёмом данных, как, например, видеосигнал, поэтому требования минимальные. Однако добавлю ложку дёгтя: протокол USB не гарантирует 100% доставку информации от отправителя получателю.
С первой проблемой определились – большие задержки при использовании стандартных драйверов или большая цена за использование звуковой карты с адекватной задержкой.
Ранее мы определились, что добиться идеальной передачи аналогового сигнала не такая уж и простая задача. В добавок к этому, стоит упомянуть шумы и погрешности, которые возникают в процессе снятия/преобразования/передачи сигнала как данных, поскольку, если вспомнить физику, любой измерительный прибор обладает своей погрешностью, а любой алгоритм своей точностью.

Шутка из области радиотехники: в радиосвязи есть т.н. Q-коды, трёхбуквенные обозначения различных вопросов-ответов, применяющиеся для сокращения числа передаваемых символов. Один из неофициальных кодов «QZZ» расшифровывается как «Это фон 60 Гц или вы храпите?», здесь 60 Гц – это паразитное фоновое излучение частоты переменного тока.

Данная шутка очень показательна ввиду того, что на работу звуковой карты также влияет излучение расположенной рядом аппаратуры, вплоть до ультразвука, издаваемого центральным процессором во время работы. Ко всему прочему стоит добавить искажения в характеристику записываемого/воспроизводимого сигнала которые зависят от конечного устройства (микрофона, звукоснимателя, динамиков, наушников и пр.). Зачастую для маркетинга производители различных звуковых устройств сознательно увеличивают возможную частоту снимаемого/воспроизводимого сигнала, от чего у человека, который учил биологию и физику в школе возникает вполне осознанный вопрос «а зачем, если человек не слышит вне диапазона 20-20кГц?». Как говорится, в каждой правде есть доля правды. Действительно, очень многие производители лишь на бумаге обозначают более качественные характеристики у своего оборудования. Тем не менее, если всё-же производитель действительно сделал устройство, которое способно снять/воспроизвести сигнал в чуть большем диапазоне частот, о покупке данного оборудования стоит хоть ненадолго, но задуматься.
Дело вот в чем. Все прекрасно помнят, что такое АЧХ, красивые графики с неровностями и прочим. При снятии звука (рассмотрим только этот вариант), микрофон соответствующим образом его искажает, что характеризуется неровностями его АЧ-характеристики в пределах того диапазона, который он «слышит».

Таким образом, имея микрофон, который способен снять сигнал в стандартных пределах (20-20к) мы получим искажения лишь на этом диапазоне. Как правило, искажения подчиняются нормальному распределению (вспоминаем теорию вероятностей), с небольшими вкраплениями случайных погрешностей. Что будет, если мы при прочих равных условиях расширим диапазон снимаемого сигнала? Если следовать логике – то «шапка» (график плотности вероятности) растянется в сторону увеличения диапазона, тем самым сместив искажения за пределы интересующего нас слышимого диапазона.

На практике, всё зависит от разработчика оборудования и следует очень тщательно это проверять. Тем не менее, факт остаётся фактом.

Если вернуться к нашему железу, то, к сожалению, не всё так радужно. Аналогично заявлениям разработчиков микрофонов и динамиков, производитель звуковых карт также часто привирают относительно режимов работы своих устройств. Иногда для конкретной звуковой карты можно видеть, что она работает в режиме 96к/24бит, хотя на деле это всё те же 48к/16бит. Тут дело может обстоять в том, что в пределах драйвера звук действительно может быть закодирован с указанными параметрами, хотя реально звуковая карта (ЦАП-АЦП) не могут выдать необходимые характеристики и просто отбрасывают старшие разряды у глубины дискретизации и пропуская часть частот у частоты дискретизации. Этим в своё время очень часто грешили простейшие встроенные звуковые карты. И хотя, как мы выяснили для человеческого слуха вполне достаточно таких параметров как 40к/10бит, для обработки звука этого будет маловато из-за вносимых искажений в процессе обработки звука. То есть, если инженер или музыкант снял звук при помощи среднего микрофона или звуковой карты, то в дальнейшем с использованием даже лучших программ и железа будет очень проблематично вычистить весь шум и погрешности, которые были внесены на этапе записи. К счастью производители полупрофессионального или профессионального звукового оборудования подобным не грешат.

— Что такое референсные треки? —

Последняя проблема заключается в том, что встроенные звуковые карты попросту не имеют достаточного числа необходимых разъёмов для подключения необходимых устройств. По факту, даже джентельменский набор в виде наушников, и пары мониторов будет попросту некуда подключить, а уж о таких изысках как выходы с фантомным питанием и отдельными регуляторами для каждого из каналов и вовсе придётся забыть.

Итого: первое что нужно определить для дальнейшего выбора типа звуковой карты – это то, чем мастер будет заниматься. Вполне вероятно, что для черновой обработки, когда нет нужды записывать в высоком качестве или для имитации «ушей» конечного слушателя может быть достаточно встроенной или внешней, но относительно дешевой звуковой карты. Также это может пригодиться для начинающих музыкантов, если им не лень разбираться с уменьшением задержек при real-time обработке. Для мастеров, которые занимаются исключительно офлайн обработкой, следует не заморачиваться в уменьшении задержек и акцентировать внимание на устройства, которые будут реально выдавать положенные им герцы и биты. Для этого не обязательно покупать сверх дорогую звуковую карту, в самом дешевом варианте может подойти более-менее адекватная «игровая» звуковая. НО, акцентирую внимание на том, что драйвера для таких звуковых карт пытаются улучшить звучание определенным образом, что недопустимо, поскольку для обработки необходимо получить звук как можно более чистый и сбалансированный с минимальным вкраплением драйверного «улучшайзинга».

Однако, если Вам, как мастеру, необходимо устройство, которое будет отвечать требованиям по качеству записываемого-воспроизводимого сигнала, а также по скорости обработки этого сигнала – тут придётся или доплатить, получив аппарат надлежащего качества или выбрать 2 чем можно пожертвовать: высокое качество, низкая цена, высокая скорость.

Прим. Ред.: Если вы музыкант, и не хотите разбираться во всех сложностях современной обработки — заказывайте сведение и мастеринг в нашей студии, и мы сделаем все необходимое, чтобы Вы получили качественный материал! -> Цены

Поделиться ссылкой