МИНИСТЕРСТВО ОБРАЗОВАНИЯ И НАУКИ РЕСПУБЛИКИ БУРЯТИЯ
ГБОУ СПО «БУРЯТСКИЙ РЕСПУБЛИКАНСКИЙ ИНФОРМАЦИОННО-ЭКОНОМИЧЕСКИЙ ТЕХНИКУМ»
Технология обработки звука
Выполнил: Богданов С., учащийся 734 группы
Проверил: Цыбикова М.Г.

Улан-Удэ
2012
Содержание
Введение
Глава 1. Характеристика сигналов в системах цифровой обработки
1.1. Программы для обработки звуковой информации (Редакторы цифрового аудио)
Глава 2. Применение цифровой обработки сигналов (шумоподавление для звука)
2.1. Передискретизация
2.2. Антиалиасинг изображений
2.3. Псевдотонирование изображений
2.4. Выравнивание освещенности изображений
2.5. Программы для написания музыки
2.6. Программы-анализаторы аудио
2.7. Специализированные реставраторы аудио
2.8. Трекеры
2.9. Программы для копирования и сжатия цифрового звука с компакт-дисков
Глава 3. Профессиональная обработка звука. Звук и звуковая волна
3.1. Программа обработки звука Audacity
3.2. Цифровая и аналоговая запись. Аналогово-цифровое преобразование. Микширование
3.3. Импульсная и частотная модуляция. Хранение оцифрованного звука
3.4. Сэмплирование
3.5. Аппаратура
3.6.Програмное обеспечение
3.7. Саундтреки
Заключение
Введение
Программы для работы с аудиоинформацией (звуком) позволяют записывать живой звук и преобразовывать его, изменяя тембр, улучшая качество звучания, добавляя эффекты и т.д. Современные программы-секвенсеры имеют возможность записи не только MIDI, но и звуковых дорожек. Однако для серьезной работы со звуковой информацией, как правило, требуется вызвать внешний аудиоредактор, то есть как раз программу для работы со звуком. В отличие от MIDI-секвенсеров, здесь качество программы определяется не только удобством и функциональностью интерфейса, не только наличием дополнительных утилит, но и собственно алгоритмами обработки. При одних и тех же условиях и параметрах на одном и том же звуковом материале разные программы могут дать совершенно непохожие результаты. Вообще говоря, звуковая информация — вещь «неуловимая»: порой незначительное изменение одного из многих параметров обработки может дать совершенно новый на слух результат. Так что, получив хорошие звуковые результаты, не поленитесь лишний раз записать получившийся файл на диск.
Перспективы развития и использования цифрового аудио видятся авторам статьи очень широкими. Казалось бы, все, что можно было сделать в этой области, уже сделано. Однако это не так. Остается масса еще совсем незатронутых проблем.
Например, область распознавания речи еще очень не развита. Давно уже делались и делаются попытки создать программное обеспечение, способное качественно распознавать речь человека, однако все они пока не приводят к желаемому результату. А ведь долгожданный прорыв в этой области мог бы неимоверно упростить ввод информации в компьютер. Только представьте себе, что вместо набора текста его можно было бы просто надиктовывать, попивая кофе где-нибудь неподалеку от компьютера. Имеется множество программ якобы способных предоставить такую возможность, однако все они не универсальны и сбиваются при незначительном отклонении голоса читающего от заданного тона. Такая работа приносит не столько удобств, сколько огорчений. Еще куда более сложной задачей (вполне возможно, что и неразрешимой вовсе) является распознавание общих звуков, например, звучания скрипки в звуках оркестра или выделение партии рояля. Можно надеяться, что когда-нибудь такое станет возможным, ведь человеческий мозг легко справляется с такими задачами, однако сегодня говорить о хотя бы малейших сдвигах в этой области рано.
В области синтеза звука также есть пространство для изучения. Способов синтеза звука сегодня существует несколько, однако ни один из них не дает возможности синтезировать звук, который нельзя было бы отличить от настоящего. Если, скажем, звуки рояля или тромбона еще более-менее поддаются реализации, до правдоподобного звучания саксофона или электрогитары добиться еще так и не смогли – существует масса нюансов звучания, которые почти невозможно воссоздать искусственно.
Таким образом, можно смело сказать, что в области обработки, создания и синтеза звука и музыки еще очень далеко до того решающего слова, которое поставит точку на развитии этой отрасли человеческой деятельности.
Как и графика, компьютерный звук бывает двух основных типов:
Цифровой звук - аналог фотографии, точная цифровая копия введенных извне звуков. Это может быть сделанная с микрофона запись вашего голоса, копия звуковых дорожек с компакт-диска и т. д. Как и фотография, такой звук занимает много места... Впрочем, аппетиты фотографии по сравнению со звуком просто ничтожны! Одна минута цифрового звука, записанного с максимальным качеством, занимает около 10 Мбайт. 
Синтезированный звук - точнее, музыка в формате MIDI.
Суть MIDI-технологии можно изложить так: компьютер не просто проигрывает нужную вам мелодию, а синтезирует ее с помощью звуковой карты. MlDI-мелодии - это всего лишь системы команд, управляющие звуковой картой, коды нот, которые она должна "изобразить". Эта технология идеальна для компьютерных композиторов, поскольку позволяет с легкостью изменять любые параметры созданной на компьютере мелодии - заменять инструменты, добавлять или удалять их, изменять темп и даже стиль композиции. И файлы с MIDI-музыкой - крохотные, всего в несколько десятков килобайт. Но и недостатки у MIDI есть - голос в MIDI-файле не запишешь, да и музыка хорошо звучит лишь на очень качественной звуковой карте.
Можно выделить два основных типа музыкальных программ, с которыми придется работать:
Программы для записи и обработки цифровой музыки (Sound Forge, WaveLab, CoolEdit, SAW Plus);
Секвенсоры - редакторы синтезированной (MIDI) музыки (MidiStudio, MIDI Orchestrator Plus, Cakewaik Pro, Cubase).
Кстати говоря, большинство сегодняшних MIDI-программ умеют работать и с обычным цифровым звуком - к примеру, вы можете наложить поверх MIDI-дорожки собственный вокал и, сохранив полученный результат в виде обычного WAV-файла (стандартный формат цифрового звука), получите готовую песню, которую потом можно и на компакт-диск записать... Цифровой обработкой сигналов принято называть в вычислительной технике арифметическую обработку последовательностей равноотстоящих во времени отсчетов. Под цифровой обработкой понимают также обработку одномерных и многомерных массивов данных.
Безусловно, данная обработка может быть выполнена с помощью обычных вычислительных средств. Например, на современном персональном компьютере с процессором типа Pentium IV обработка не представляет никаких трудностей. Однако именно специфика последовательности предоставляет дополнительные возможности для достижения высокой эффективности при жестких ограничениях систем реального времени.
Не секрет, что первые вычислительные машины были созданы в 40-х годах прошлого столетия для решения задач криптографии, баллистики, ядерной физики, практического построения систем противовоздушной обороны. Системы и методы цифровой обработки также разрабатывались в оборонных отраслях в первую очередь для решения задач радиолокации, обработки гидроакустических и тепловизионных сигналов.
Для обнаружения и уничтожения летательных аппаратов служили комплексы, состоящие из радиолокаторов, управляющих вычислительных машин и ракетных установок.
В области военного морского приборостроения системы цифровой обработки использовались, в частности, для анализа гидроакустических сигналов, определения шумовых паспортов кораблей на основе спектральных характеристик, вычисления корреляционных зависимостей паспорта и реального гидроакустического сигнала.
Глава 1. Характеристика сигналов в системах цифровой обработки
Цифровая обработка, в отличие от аналоговой, традиционно используемой во многих радиотехнических устройствах, является более дешевым способом достижения результата, обеспечивает более высокую точность, миниатюрность и технологичность устройства, температурную стабильность.
Наиболее жесткие требования к аппаратной части цифровой обработки предъявляют радиолокационные системы. Основным содержанием цифровой обработки здесь является фильтрация входных сигналов антенны, частоты сигналов от 10 МГц до 10 ГГц. Размеры преобразований могут достигать до 214 комплексных точек, требования по быстродействию составляют 109умножений в секунду.
При обработке цифровых сигналов радиолокатора используются алгоритмы цифровой фильтрации и спектрального анализа (вычисление дискретного и быстрого преобразования Фурье - ДПФ и БПФ), алгоритмы корреляционного анализа, обратной свертки, специальные алгоритмы линейного предсказания. В системах обработки звука цифровые процессоры обработки сигнала решают задачи анализа, распознавания и синтеза речи, сжатия речи в системах телекоммуникации. Для систем обработки изображений типовыми задачами являются улучшение изображений, сжатие информации для передачи и хранения, распознавание образов. При обработке цифровых звуковых сигналов используются алгоритмы цифровой фильтрации и спектрального анализа (вычисление ДПФ и БПФ), алгоритмы корреляционного анализа, обратной свертки, специальные алгоритмы линейного предсказания. В большинстве случаев удовлетворительные результаты обеспечивает формат данных с фиксированной запятой, длина слова 16 бит, частоты сигналов от 4 до 20 кГц (до 40 кГц в случае обработки музыки), требуемая производительность - до 10x106 операций в секунду - 10 MIPS по компьютерной терминологии.
Характерным для систем обработки изображений является восстановление и улучшение изображений с помощью инверсной свертки, обработка массивов отсчетов с помощью алгоритмов быстрого преобразования Фурье. При восстановлении трехмерной структуры объектов, получаемых методами проникающего излучения в дефектоскопии и медицинской интраскопии, применяются методы пространственно-частотной фильтрации. Другой класс алгоритмов - преобразование контрастности, выделение контуров, статистическая обработка изображений. Для сжатия информации наиболее эффективны ортогональные преобразования Фурье, Адамара и Уолша. Требуемая производительность оценивается величинами 100-1000 MIPS, массивы данных - 105-106 отсчетов.
Таблица 1 Характеристики сигналов в системах цифровой обработки
Назначение
Характеристика
Диапазон частот, размерность
Требуемое быстродействие
Пример, разработчик

Радиолокационные системы
Фильтрация сигналов антенны
10 МГц - 10 ГГц, до 214 точек
109 умножений в секунду


Обработка звуковых сигналов
Анализ и синтез речи, сжатие и распознавание
20 кГц (40 кГц), 16 бит
10 MIPS
"Напев", ЦНИИ "Агат"

Системы обработки изображений
Восстановление и улучшение изображений
105-106 отсчетов
100-1000 MIPS
СПФ СМ, ИНЕУМ, ИРЕ АН СССР







Ниже приводятся описания двух отечественных систем цифровой обработки сигнала, которые, однако, предваряются небольшим экскурсом в математические и алгоритмические основы обработки последовательностей сигналов.
Программы для обработки звуковой информации.
Редакторы цифрового аудио
Тема программного обеспечения очень широка, поэтому здесь мы только вкратце обсудим основные представители программ для обработки звука.
Наиболее важный класс программ – редакторы цифрового аудио. Основные возможности таких программ это, как минимум, обеспечение возможности записи (оцифровки) аудио и сохранение на диск. Развитые представители такого рода программ позволяют намного больше: запись, многоканальное сведение аудио на нескольких виртуальных дорожках, обработка специальными эффектами (как встроенными, так и подключаемыми извне – об этом позже), очистка от шумов, имеют развитую навигацию и инструментарий в виде спектроскопа и прочих виртуальных приборов, управление/управляемость внешними устройствами, преобразование аудио из формата в формат, генерация сигналов, запись на компакт диски и многое другое. Некоторые из таких программ: Cool Edit Pro (Syntrillium), Sound Forge (Sonic Foundry), Nuendo (Steinberg), Samplitude Producer (Magix), Wavelab (Steinberg).
Основные возможности редактора Cool Edit Pro 2.0 - пример рабочего окна программы в многодорожечном режиме: редактирование и сведение аудио на 128 дорожках, 45 встроенных DSP-эффектов, включая инструменты для мастеринга, анализа и реставрации аудио, 32-битная обработка, поддержка аудио с параметрами 24 бит / 192 КГц, мощный инструментарии для работы с петлями (loops), поддержка DirectX, а также управление SMPTE/MTC, поддержка работы с видео и MIDI и прочее.
Основные возможности редактора Sound Forge 6.0a - пример рабочего окна программы: мощные возможности не деструктивного редактирования, многозадачная фоновая обработка заданий, поддержка файлов с параметрами до 32 бит / 192 КГц, менеджер предустановок, поддержка файлов более 4 Гб, работа с видео, большой набор эффектов обработки, восстановление после зависаний, предпрослушивание примененных эффектов, спектральный анализатор и прочее.
Глава 2. Применение цифровой обработки сигналов.
Шумоподавление для звука
Звуковой сигнал, записываемый в реальных акустических условиях, часто содержит нежелательные шумы, которые могут порождаться окружающей средой или звукозаписывающей аппаратурой. Один из классов шумов - аддитивные стационарные шумы.
Аддитивность означает, что шум суммируется с "чистым" сигналом и не зависит от него.
Стационарность означает, что свойства шума (мощность, спектральный состав) не меняются во времени.
Примерами таких шумов могут являться постоянное шипение микрофона или усилительной аппаратуры, гул электросети. Работа различных приборов, не меняющих звучания по времени (вентиляторы, компьютеры) также может создавать шумы, близкие к стационарным. Не являются стационарными шумами различные щелчки, удары, шелест ветра, шум автомобилей.
Для подавления аддитивных стационарных шумов существует алгоритм спектрального вычитания. Он состоит из следующих стадий:
1. Разложение сигнала с помощью кратковременного преобразования Фурье (STFT) или другого преобразования, компактно локализующего энергию сигнала.
2. Оценка спектра шума.
3. "Вычитание" амплитудного спектра шума из амплитудного спектра сигнала.
4. Обратное преобразование STFT - синтез результирующего сигнала.
В качестве банка фильтров рекомендуется использовать STFT с окном Ханна длиной порядка 50 мс и степенью перекрытия 75%. Амплитуду весового окна надо отмасштабировать так, чтобы при выбранной степени перекрытия окон банк фильтров не менял общую амплитуду сигнала в отсутствие обработки.
Оценка спектра шума может осуществляться как автоматически, путем поиска участков минимальной энергии в каждой частотной полосе, так и вручную, путем анализа спектра на временном сегменте, который пользователь идентифицировал как шум.
Одна из проблем метода спектрального вычитания - т.н. «музыкальный шум». Он появляется вследствие того, что коэффициенты STFT шумовых сигналов статистически случайны, что приводит к их неравномерному подавлению. В результате, очищенный сигнал содержит кратковременные и ограниченные по частоте всплески энергии, которые на слух воспринимаются как "колокольчики" или "льющаяся вода". В некоторых случаях этот эффект даже менее желателен, чем исходный подавляемый шум.
Для подавления этого артефакта можно применять следующие методы:
* Завышение оценки шумового порога (увеличение k). Приводит к подавлению слабых компонент полезного сигнала, звук становится глуше.
* Неполное подавление шума (ограничение снизу константой, отличной от нуля). Часть шума остается в сигнале и отчасти маскирует «музыкальный шум».
* Сглаживание по времени оценок спектра. Приводит к размытию или подавлению транзитов (резких всплесков в сигнале: ударов, атак музыкальных инструментов).
* Адаптивное сглаживание оценок спектра по времени и частоте. Наиболее качественный, но и трудоемкий метод.
Наиболее распространенный способ подавления «музыкального шума» - использует сглаживание спектра по времени. Для этого к STFT-коэффициентам исходного сигнала применяется рекурсивная фильтрация по времени.
Передискретизация
Ресамплинг (передискретизация, resampling) - это изменение частоты дискретизации цифрового сигнала. Применительно к цифровым изображениям ресамплинг означает изменение размеров изображения. Существует множество различных алгоритмов ресамплинга изображений. Например, для увеличения изображения в 2 раза можно просто продублировать каждую из его строк и каждый из его столбцов (а для уменьшения - выкинуть). Такой метод называется методом ближайшего соседа (nearest neighbor). Можно промежуточные столбцы и строки получить линейной интерполяцией значений соседних столбцов и строк. Такой метод называется билинейной интерполяцией (bilinear interpolation). Можно каждую точку нового изображения получить как взвешенную сумму большего числа точек исходного изображения (бикубическая и другие виды интерполяции).
Наиболее качественный ресамплинг получается при использовании алгоритмов, учитывающих необходимость работы не только с временной, но и с частотной областью изображения. Сейчас мы рассмотрим алгоритм ресамплинга, который основан на идее максимального сохранения частотной информации изображения.
Алгоритм построен по принципу интерполяция / фильтрация / прореживание (interpolation / filtering / decimation).
Работу алгоритма будем рассматривать на одномерных сигналах, так как двумерное изображение можно сначала растянуть или сжать по горизонтали (по строкам) а потом - по вертикали (по столбцам). Таким образом, ресамплинг двумерного изображения сводится к ресамплингу одномерного сигнала.
Пусть нам нужно «растянуть» одномерный сигнал от длины n точек до длины m точек, т.е. в nm раз. Для выполнения этой операции необходимо выполнить 3 шага. Первый шаг - интерполяция нулями, увеличивающая длину сигнала в m раз. Нужно умножить все отсчеты исходного сигнала на m, а потом после каждого отсчета сигнала нужно вставить m-1 нулевое значение. При этом спектр сигнала изменяется следующим образом. Та часть спектра, которая изначально содержалась в цифровом сигнале, остается без изменения (именно этого мы добиваемся). Но выше старой половины частоты дискретизации возникают помехи (отраженные копии спектра), от которых необходимо избавиться с помощью фильтрации.
Второй шаг - это отфильтровывание этих помех с помощью НЧ-фильтра. Теперь мы получили сигнал, который в m раз длиннее исходного, но сохранил его частотную информацию и не приобрел посторонней частотной информации (ее мы отфильтровали). Если бы нашей задачей было удлинение сигнала в m раз, то на этом шаге можно было бы остановиться. Но наша задача требует теперь уменьшить длину сигнала в n раз. Для этого нужно выполнить 2 шага. Первый шаг - это антиалиасинговая фильтрация. Так как частота дискретизации уменьшается в n раз, то из спектра сигнала, согласно теореме Котельникова, удастся сохранить только его низкочастотную часть. Все частоты выше половины будущей частоты дискретизации нужно удалить с помощью антиалиасингового фильтра с частотой среза равной n1 от текущей половины частоты дискретизации. Второй шаг - это прореживание полученного сигнала в n раз. Для этого достаточно выбрать из сигнала каждый n-й отсчет, а остальные - отбросить. Этот алгоритм очень схож с работой АЦП, который тоже сначала отфильтровывает ненужные частоты из сигнала, а потом замеряет Заметим, что две НЧ-фильтрации, применяемые в этом алгоритме друг за другом, можно (и нужно) заменить одной. Для этого частоту среза единого НЧ -фильтра нужно выбрать равной минимуму из частот среза двух отдельных НЧ-фильтров. Еще одно существенное улучшение алгоритма - это поиск общих делителей у чисел m и n. Например, очевидно, что для того, чтобы сигнал из 300 точек сжать до 200 точек, достаточно положить в алгоритме m=2 и n=3.
Заметим, что приведенный алгоритм требует очень большого объема вычислений, т.к. промежуточный размер одномерного сигнала при ресамплинге может быть порядка сотен тысяч. Существует способ существенно повысить быстродействие алгоритма и сократить расход памяти. Этот способ называется многофазной фильтрацией (polyphase filtering). Он основан на том, что в длинном промежуточном сигнале совсем необязательно вычислять все точки. Ведь большая часть из них все равно будет отброшена при прореживании. Многофазная фильтрация позволяет непосредственно выразить отсчеты результирующего сигнала через отсчеты исходного сигнала и антиалиасингового фильтра.
Отметим, что здесь мы не рассматриваем такие детали алгоритма, как коррекция границ изображения, выбор фазы сигнала при интерполяции и прореживании и построение хорошего антиалиасингового фильтра. Отметим только, что для ресамплинга изображений требуется уделить особое внимание как частотной, так и пространственной характеристике фильтра. Если оптимизировать фильтр только в частотной области, то это приведет к большим пульсациям в ядре фильтра. А при ресамплинге изображений пульсации в ядре фильтра приводят к пульсациям яркости вблизи резких перепадов яркости в изображении (эффект Гиббса, Gibbs phenomenon)
Антиалиасинг изображений
Избежать алиасинга при генерации изображений - важная задача компьютерной графики. Алиасинг в изображениях приводит к зубчатости краев фигур, муару, плохой читаемости текста и графиков. Одним из основных способов предотвращения алиасинга является так называемый суперсамплинг (super-sampling). Этот прием заключается в генерации изображения с большим разрешением и ресамплингу этого изображения до нужного размера. Рассмотрим пример. Пусть нам нужно сгенерировать трехмерное изображение шахматной доски с разрешением 200x150 пикселей. Если сделать это непосредственно (например, трассировкой лучей через каждую точку экрана), то результат может быть существенно искажен алиасингом (рис. 13). Применим метод суперсамплинга. Сгенерируем нужное нам изображение с четырехкратным размером 800x600 пикселей, а затем уменьшим его до размера 200x150. Заметим, что качество получаемого таким образом изображения существенно лучше и зависит от качества алгоритма ресамплинга и от степени суперсамплинга (во сколько раз большее изображение мы сгенерировали). Желательно применять алгоритм ресамплинга, обеспечивающий хороший антиалиасинг.
Изображение, сгенерированное без антиалиасигна и с антиалиасингом.
Псевдотонирование изображений
Псевдотонирование (half-toning) - это создание иллюзии полноцветности изображения с помощью небольшого реального числа цветов. Пример псевдотонирования - фотографии в газетах, где любые оттенки серого передаются с помощью чередования мелких черных и белых точек.
Мы рассмотрим вариант псевдотонирования для черно-белых изображений. Нашей задачей будет представить изображение с оттенками серого в виде монохромного (двухцветного) изображения.
Пусть мы имеем изображение в оттенках серого, интенсивность точек которого может принимать произвольные значения от 0 до 1. Рассмотрим некоторые алгоритмы приведения такого изображения к монохромному, яркость точек которого может принимать 2 значения: 0 или 1.
Первый самый простой алгоритм - это усечение (порог). Все пиксели с яркостью больше 0.5 получают яркость 1, все остальные - яркость 0. Такой алгоритм обычно дает наихудшие результаты (рис. 15).
Более качественные алгоритмы стремятся так распределить черные и белые пиксели в полученном изображении, чтобы на каждом участке изображения концентрация белых пикселей была пропорциональна яркости этого участка в исходном изображении.
Один из таких методов - упорядоченное псевдотонирование. В этом методе исходное изображение разбивается на небольшие блоки одинакового размера (например, 3x3). Затем в каждом блоке находится средняя яркость изображения. В соответствии с этой средней яркостью выбирается количество белых пикселей в соответствующем блоке получаемого монохромного изображения. Обычно эти белые пиксели упорядочиваются в соответствии с некоторым регулярным шаблоном.
Существуют другие алгоритмы достижения нужной концентрации белых пикселей в получаемом монохромном изображении. Например, существует класс алгоритмов, которые достигают этого в 2 стадии. Сначала к изображению добавляется случайный шум необходимой амплитуды, а затем применяется порог. Такие алгоритмы называют диттерингом (dithering).
Шум представляет собой некий достаточно случайный сигнал, не зависящий от изображения. Например, белый шум - это просто последовательность случайных чисел с математическим ожиданием 0. Спектр такого шума приблизительно равен константе на всех частотах (в пределах половины частоты дискретизации). Последовательные отсчеты такого шума не коррелируют между собой.
Существуют другие виды шума. Например, у розового шума энергия обратно пропорциональна частоте (в определенном рассматриваемом диапазоне частот). Другими словами, амплитуда его гармоник падает на 3 дБ при удвоении частоты. У голубого шума энергия наоборот растет с частотой. Существуют и другие виды шума, однако определения для них могут быть различны в разных областях.
Будем называть ошибкой квантования изображение, равное разности исходного и псевдотонированного изображений.
При псевдотонировании изображений стремятся добиться того, чтобы спектр изображения-ошибки по возможности не содержал низкочастотных и среднечастотных компонент. В этом случае ошибка будет менее заметна человеческому глазу. Например, при диттеринге розовым шумом спектр ошибки тоже близок к светло-розовому, и результирующее изображение выглядит значительно искаженным (рис. 15). При диттеринге белым шумом спектр ошибки белый. Поэтому результирующее изображение выглядит лучше. При диттеринге с диффузией ошибки спектр ошибки получается близок к голубому шуму, т.е. содержит мало низкочастотных компонент. В результате получается приятное глазу изображение.
Нетрудно видеть, что просто диттеринг голубым шумом не приводит к желаемому результату, т.к. ошибка квантования при этом имеет спектр, содержащий значительное количество низкочастотных и среднечастотных компонент. Для избавления от них нужно применить рекурсивный фильтр. Этот метод псевдотонирования называется диффузией ошибки (error diffusion). Его идея в том, что ошибка квантования, возникшая при квантовании данного пикселя, распространяется с обратным знаком на соседние пиксели и таким образом как бы компенсируется.
Выравнивание освещенности изображений
Часто некоторые участки на изображении бывают слишком темными, чтобы на них можно было что-то разглядеть.
Если прибавить яркости ко всему изображению, то изначально светлые участки могут оказаться совсем засвеченными. Чтобы улучшить вид изображения в таких случаях, применяется метод выравнивания освещенности.
Этот метод не является линейным, т.е. не реализуется линейной системой. Действительно, рассмотрим модель типичную освещенности для фотографии. Фотографируемый пейзаж обычно освещен по-разному в разных точках. Причем обычно освещенность меняется в пространстве достаточно медленно.
Мы хотим, чтобы все детали на фотографии были освещены более однородно, но при этом оставались достаточно контрастными друг относительно друга.
А на реальной фотографии получается произведение той картинки, которую мы хотим видеть и карты освещенности. Там где освещенность близка к нулю, все предметы и детали тоже близки к нулю, то есть практически невидимы.
Поскольку освещенность меняется в пространстве достаточно медленно, то можно считать ее низкочастотным сигналом. Само же изображение можно считать в среднем более высокочастотным сигналом. Если бы в процессе фотографии эти сигналы складывались, то их можно было бы разделить с помощью обычного фильтра.
Например, применив ВЧ-фильтр, мы бы «избавились от перепадов освещенности» (НЧ-сигнала), а оставили «само изображение». Но поскольку эти сигналы не складываются, а перемножаются, то избавиться от неравномерностей освещенности простой фильтрацией не удастся.
Для решения таких задач применяется гомоморфная обработка. Основной метод гомоморфной обработки заключается в сведении нелинейной задачи к линейной с помощью каких-либо преобразований. Например, в нашем случае можно свести задачу разделения перемноженных сигналов к задаче разделения сложенных сигналов. Для этого нужно взять логарифм от произведения изображений.
Логарифм от произведения равен сумме логарифмов сомножителей. Если учесть, что логарифм от НЧ-сигнала остается НЧ-сигналом, а логарифм от ВЧ-сигнала остается ВЧ-сигналом, то мы свели задачу разделения произведения сигналов к задаче разделения суммы НЧ- и ВЧ-сигналов. Очевидно, эту задачу можно решить с помощью ВЧ-фильтра, который удалит из суммы сигналов низкие частоты. После этого останется только взять от полученного сигнала экспоненту, чтобы вернуть его к исходному масштабу амплитуд.
ВЧ-фильтр можно реализовать следующим образом. Сначала к изображению применяется операция размытия (НЧ-фильтр), а потом из исходного изображения вычитается размытое.
Наилучший радиус размытия зависит от конкретного изображения. Можно начать эксперименты с радиуса порядка десяти пикселей.
Обычно для размытия изображения применяется двумерный гауссовский фильтр.
Непосредственное вычисление двумерной свертки с таким ядром потребует огромных вычислений даже при сравнительно небольшом размере ядра. Однако приведенное гауссово ядро обладает свойством сеперабельности.
Это означает, что эквивалентного эффекта можно достичь, отфильтровав сначала все строки изображения одномерным гауссианом, а затем отфильтровав все столбцы полученного изображения таким же одномерным гауссианом.
Полученный от выравнивания освещенности эффект может оказаться слишком сильным (темные области станут по яркости такими же, как и светлые). Чтобы уменьшить эффект, можно просто смешать обработанное изображение с исходным в определенной пропорции.
Программы для написания музыки
Не менее важная в функциональном смысле группа программ – секвенсоры (программы для написания музыки). Чаще всего, такие программы используют MIDI-синтезатор (аппаратный внешний или встроенный почти в любую звуковую карту, либо программный, организуемый специальным программным обеспечением). Такие программы предоставляют пользователю либо привычный нотный стан (как, например, программа Finale от CODA), либо более распространенный способ редактирования аудио на компьютере, так называемый, piano-roll (это более понятное представление музыки для людей, не знакомых с нотами; в таком представлении вертикально имеется ось с изображением клавиш пианино, а горизонтально откладывается время, таким образом, ставя на пересечении штрихи разной длинны, добиваются звучания определенной ноты с определенной продолжительностью). Встречаются и программы, позволяющие просматривать и редактировать аудио в обоих представлениях. Развитые секвенсоры помимо редактирования аудио во многом могут дублировать возможности редакторов цифрового аудио – осуществлять запись на CD, совмещать MIDI-дорожки с цифровыми сигналами и осуществлять мастеринг. Яркие представители такого класса программ: Cubase (Steinberg), Logic Audio (Emagic), Cakewalk (Twelve Tone Systems) и уже упомянутый Finale.
Основные возможности редактора Cubase 5.1 – пример рабочего окна программы в режиме просмотра MIDI дорожек: редактирование музыки в реальном времени используя графическое представление информации, высокое разрешение редактора (15360 пульсов на четверть), практически не лимитированное количество дорожек, 72 аудио канала, поддержка VST32, 4 эквалайзера на канал и другие поканальные эффекты, встроенные инструменты обработки с использованием аналогового моделирования (виртуальные инструменты, эффект процессоры, инструменты микширования и записи) и множество других возможностей.
Основные возможности редактора Logic Audio 5 – пример рабочего окна программы: работа со звука при точности в 32 бита, высокое временное разрешение событий, самоадаптируемый микшер аудио и MIDI, оптимизируемый интерфейс пользователя, синхронизация с видео, виртуально неограниченное число MIDI-дорожек, обработка звука в реальном времени, полная синхронизация с MTC, MMC, SMPTE, встроенные модули обработки и автоинструменты, поддержка большого количество аппаратного оборудования, а также множество других возможностей.
В наборе программ пользователя, занимающегося обработкой звука, имеется множество разных инструментов, так было раньше и так будет впредь – универсальных комбайнов для работы со звуком не бывает. Однако, не смотря на все разнообразие ПО, в программах часто используются схожие механизмы для обработки звука (например, процессоры эффектов и прочие). На каком-то этапе разработки аудио ПО, производители поняли, что удобнее сделать в своих программах возможность подключения внешних инструментов, чем каждый раз создавать заново инструменты для каждой отдельной программы. Так что многие программы, относящиеся к той или иной группе ПО, позволяют подключать так называемые «плагины» - внешние подключаемые модули, расширяющие возможности обработки звука. Это стало возможным в результате появления нескольких стандартов на интерфейс между программой и подключаемым модулем.
На сегодняшний день существуют два основных стандарта на интерфейс: DX и VST. Существование стандартов позволяет подключать один и тот же плаг-ин к совершенно разным программам, не заботясь о возникновении конфликтов и неполадок. Говоря о самих плаг-инах, надо сказать, что это просто огромное семейство программ. Обычно, один плаг-ин является механизмом, реализующим какой-то конкретный эффект, например, реверберацию или низкочастотный фильтр.
Из интересных плагинов можно вспомнить, например iZotope Vinyl, - он позволяет придать звучанию эффект виниловой пластинки – пример рабочего окна плагина в среде Cool Edit Pro), Antares AutoTune позволяет в полуавтоматическом режиме корректировать звучание вокала, а Orange Vocoder являет собой замечательный вокодер (механизм для придания звучанию различных инструментов схожести со звучанием голоса человека).
Программы-анализаторы аудио
Обработка звука и написание музыки – это не только творческий процесс. Иногда нужен скрупулезный анализ данных, а также осуществление поиска огрехов их звучания. Кроме того, аудио материал, с который приходится иметь дело, не всегда желаемого качества. В этой связи нельзя не вспомнить о целом ряде программ-анализаторов аудио, специально предназначенных для осуществления измерительных анализов аудио данных. Такие программы помогают представить аудио данные удобнее, чем обычные редакторы, а также внимательно изучить их с помощью различных инструментов, таких как FFT-анализаторы (построители динамических и статических амплитудно-частотных характеристик), построители сонограмм, и прочих. Одна из наиболее известных и развитых программ подобного плана – программа SpectraLAB (Sound Technology Inc.), чуть более простые, но мощные – Analyzer2000 и Spectrogram.
Программа SpectraLAB – наиболее мощный продукт подобного рода, существующий на сегодня – пример рабочего окна программы, на экране: спектральная картина в трез представлениях и фазовая картина). Возможности программы: 3 режима работы (пост режим, режим реального времени, режим записи), основной инструментарий – осциллограф, спектрометр (двухмерный, трехмерный, а также построитель сонограмм) и фазометр, возможность сравнения амплитудно-частотных характеристик нескольких сигналов, широкие возможности масштабирования, измерительные инструменты: нелинейных искажений, отношения сигнал/шум, искажений и прочие.
Специализированные реставраторы аудио
Специализированные реставраторы аудио играют также немаловажную роль в обработке звука. Такие программы позволяют восстановить утерянное качество звучания аудио материала, удалить нежелательные щелчки, шумы, треск, специфические помехи записей с аудио-кассет, и провести другую корректировку аудио. Программы подобного рода: Dart, Clean (от Steinberg Inc.), Audio Cleaning Lab. (от Magix Ent.), Wave Corrector.
Основные возможности реставратора Clean 3.0 – рабочее окно программы: устранение всевозможных потрескиваний и шумов, режим автокоррекции, набор эффектов для обработки скорректированного звука, включая функцию «surround sound» с наглядным акустическим моделированием эффекта, запись CD с подготовленными данными, «интеллигентная» система подсказок, поддержка внешних VST плагинов и другие возможности.
Трекеры
Трекеры – это отдельная категория звуковых программ, предназначенных именно для создания музыки. Структура и концепция построения трекерных файлов очень похожа на принцип хранения MIDI-информации. В трекерных модулях (файлы, созданные в трекерах, принято называть модулями), также, как и в MIDI-файлах, содержится партитура в соответствии с которой должны проигрываться инструменты. Кроме того, в них содержится информация о том, какие эффекты и в какой момент времени должны быть применены при проигрывании того или иного инструмента. Однако, принципиальное отличие трекерных модулей от MIDI-файлов заключается в том, что проигрываемые в этих модулях инструменты (или, точнее сказать, сэмплы) хранятся в самих модулях (то есть внутри файлов), а не в синтезаторе (как это происходит в случае с MIDI). Такой способ хранения музыки имеет массу преимуществ: размер файлов невелик по сравнению с непрерывной оцифрованной музыкой (поскольку записываются только использованные инструменты и партитура в виде команд), нет зависимости звучания от компьютера, на котором происходит воспроизведение (в MIDI, как мы говорили, есть зависимость звучания от используемого синтезатора), имеется большая свобода творчества, поскольку автор музыки не ограничен наборов инструментов (как в MIDI), а может использовать в качестве инструмента любой оцифрованный звук. Основные программы-трекеры Scream Tracker, Fast Tracker, Impulse Tracker, OctaMED SoundStudio, MAD Tracker, ModPlug Tracker.
Программа ModPlug Tracker является сегодня одним из тех трекеров, сумевших стать универсальной рабочей средой для множества типов трекерных модулей 7 – пример рабочего окна программы, на экране: содержание дорожек одного загруженного модуля и рабочее окно сэмплов другого модуля). Основные возможности: поддержка до 64 физических каналов аудио, поддержка почти всех существующих форматов трекерных модулей, импорт инструментов во множестве форматов, 32-битное внутреннее микширование, высококачественный ресэплирующий фильтр, поддержка MMX/3dNow!/SSE, автоматическое удаление потрескиваний, расширение басов, ревербератор, расширение стерео, 6-полосный графический эквалайзер и другие возможности.
Напоследок следует упомянуть о существовании огромного количества другого аудио ПО: проигрыватели аудио (наиболее выдающиеся: WinAMP, Sonique, Apollo, XMPlay, Cubic Player), подключаемые модули для проигрывателей (из «улучшателей» звучания аудио - DFX, Enhancer, iZotop Ozone), утилиты для копирования информации с аудио CD (ExactAudioCopy, CDex, AudioGrabber), перехватчики аудио потоков (Total Recorder, AudioTools), кодеры аудио (кодеры MP3: Lame encoder, Blade Encoderб Go-Go и другие; кодеры VQF: TwinVQ encoder, Yamaha SoundVQ, NTT TwinVQ; кодеры AAC: FAAC, PsyTel AAC, Quartex AAC), конвертеры аудио (для перевода аудио информации из одного формата в другой), генераторы речи и множество других специфических и общих утилит. Безусловно, все перечисленное – только малая толика из того, что может пригодиться при работе со звуком.
Программы для копирования и сжатия цифрового звука с компакт-дисков
Для копирования компакт- диска в формат МРЗ, нам понадобятся как минимум две программы:
Граббер - система цифрового копирования содержания AudioCD на жесткий диск;
Кодер - программа для кодирования получившихся файлов в МРЗ.
В принципе, позднее понадобится еще одна программа - плеер, ведь проигрывать получившиеся звуковые файлы мы будем опять-таки на компьютере, наш музыкальный центр для этого не подойдет.
Что касается кодеров и грабберов, то сегодня они чаще всего работают в единой связке. К примеру, все популярные грабберы - Audiograbber, CDex, EAC или WinDAC - имеют в комплекте поставки и МРЗ-кодер, что позволяет кодировать звук с CD в МРЗ напрямую, минуя промежуточную стадию создания на жестком диске громадного файла с копией содержимого дорожки.
От самого граббера требуется не так уж и много.
1. Способность чтения информации о компакт-диске из базы данных Интернет (CDDB) и сохранения ее на жестком диске для дальнейшего использования. Это позволяет в процессе копирования дорожек на звуковой диск давать им имена, соответствующие названию и номерам композиций, а также запоминать эту информацию в тэге будущего МРЗ-файла.
2. Возможность работы с несколькими популярными кодировщиками, с возможностью установления индивидуальных параметров для каждого.
3. Возможность прямого копирования содержимого звуковых дорожек в МРЗ.
4. Возможность автоматического заполнения МРЗ-тэгов.
5. Возможность сохранения на диске в виде плейлиста (playlist) - обычного текстового файла с расширением M3U или PLS. В таком файле содержится список файлов, содержащих композиции с альбома, и их очередность, что позволяет плеерам проигрывать не отдельные композиции, а весь альбом целиком. Хотя составить такой "плейлист" вы можете сами, в любом текстовом редакторе, - напишите в столбик, в порядке очередности, названия всех файлов (с полным путем к ним), которые вы хотите воспроизвести, и сохраните получившийся список как файл с расширением M3U. После чего спокойно щелкайте по нему мышкой - если на вашем компьютере установлен плеер МРЗ, он запустится автоматически.
Всем этим требованиям удовлетворяют две самые популярные в мире связки "кодер-граббер" - Audiograbber и CDex.
Audiograbber - бесспорный лидер по популярности в нашей стране (еще и потому, что у нас легко доступна "взломанная" версия этой вообще-то защищенной коммерческой программы).
По умолчанию в Audiograbber встроена поддержка только встроенного в Windows кодека от Fraunhofer IIS (хотя в последние версии стали включать и ISO-кодек BladeEnc). При установке же дополнительного кодера от Xing, Audiograbber примет его как родного - таким образом, будут поддерживаться все три популярных класса кодировщиков.
Глава 3. Профессиональная обработка звука. Звук и звуковая волна
Под обработкой звука следует понимать различные преобразования звуковой информации с целью изменения каких-то характеристик звучания. К обработке звука относятся способы создания различных звуковых эффектов, фильтрация, а также методы очистки звука от нежелательных шумов, изменения тембра и т.д. Все это огромное множество преобразований сводится, в конечном счете, к следующим основным типам:
1. Амплитудные преобразования. Выполняются над амплитудой сигнала и приводят к ее усилению/ослаблению или изменению по какому-либо закону на определенных участках сигнала.
2. Частотные преобразования. Выполняются над частотными составляющими звука: сигнал представляется в виде спектра частот через определенные промежутки времени, производится обработка необходимых частотных составляющих, например, фильтрация, и обратное "сворачивание" сигнала из спектра в волну.
3. Фазовые преобразования. Сдвиг фазы сигнала тем или иным способом; например, такие преобразования стерео сигнала, позволяют реализовать эффект вращения или "объёмности" звука.
4. Временные преобразования. Реализуются путем наложения, растягивания/сжатия сигналов; позволяют создать, например, эффекты эха или хора, а также повлиять на пространственные характеристики звука.
Echo (эхо). Реализуется с помощью временных преобразований. Фактически для получения эха необходимо на оригинальный входной сигнал наложить его задержанную во времени копию. Для того, чтобы человеческое ухо воспринимало вторую копию сигнала как повторение, а не как отзвук основного сигнала, необходимо время задержки установить равным примерно 50 мс. На основной сигнал можно наложить не одну его копию, а несколько, что позволит на выходе получить эффект многократного повторения звука (многоголосного эха). Чтобы эхо казалось затухающим, необходимо на исходный сигнал накладывать не просто задержанные копии сигнала, а приглушенные по амплитуде.
Reverberation (повторение, отражение). Эффект заключается в придании звучанию объемности, характерной для большого зала, где каждый звук порождает соответствующий, медленно угасающий отзвук. Практически, с помощью реверберации можно "оживить", например, фонограмму, сделанную в заглушенном помещении. От эффекта "эхо" реверберация отличается тем, что на входной сигнал накладывается задержанный во времени выходной сигнал, а не задержанная копия входного. Иными словами, блок реверберации упрощенно представляет собой петлю, где выход блока подключен к его входу, таким образом уже обработанный сигнал каждый цикл снова подается на вход смешиваясь с оригинальным сигналом.
Chorus (хор). В результате его применения звучание сигнала превращается как бы в звучание хора или в одновременное звучание нескольких инструментов. Схема получения такого эффекта аналогична схеме создания эффекта эха с той лишь разницей, что задержанные копии входного сигнала подвергаются слабой частотной модуляции (в среднем от 0.1 до 5 Гц) перед смешиванием со входным сигналом. Увеличение количества голосов в хоре достигается путем добавления копий сигнала с различными временами задержки.
"Обычный" аналоговый звук представляется в аналоговой аппаратуре непрерывным электрическим сигналом. Компьютер оперирует с данными в цифровом виде. Это означает, что и звук в компьютере представляется в цифровом виде.
Цифровой звук - это способ представления электрического сигнала посредством дискретных численных значений его амплитуды. Допустим, мы имеем аналоговую звуковую дорожку хорошего качества (говоря "хорошее качество" будем предполагать нешумную запись, содержащую спектральные составляющие из всего слышимого диапазона частот - приблизительно от 20 Гц до 20 КГц) и хотим "ввести" ее в компьютер (то есть оцифровать) без потери качества. Звуковая волна - это некая сложная функция, зависимость амплитуды звуковой волны от времени. Эту функцию описывают путем хранения ее дискретных значений в определенных точках. Иными словами, в каждой точке времени можно измерить значение амплитуды сигнала и записать в виде чисел. Однако и в этом методе есть свои недостатки, так как значения амплитуды сигнала мы не можем записывать с бесконечной точностью, и вынуждены их округлять. Говоря иначе, мы будем приближать эту функцию по двум координатным осям - амплитудной и временной. Таким образом, оцифровка сигнала включает в себя два процесса - процесс дискретизации (осуществление выборки) и процесс квантования. Процесс дискретизации - это процесс получения значений величин преобразуемого сигнала в определенные промежутки времени.
Квантование - процесс замены реальных значений сигнала приближенными с определенной точностью. Таким образом, оцифровка - это фиксация амплитуды сигнала через определенные промежутки времени и регистрация полученных значений амплитуды в виде округленных цифровых значений (так как значения амплитуды являются величиной непрерывной, нет возможности конечным числом записать точное значение амплитуды сигнала, именно поэтому прибегают к округлению). Записанные значения амплитуды сигнала называются отсчетами. Очевидно, что чем чаще мы будем делать замеры амплитуды (чем выше частота дискретизации) и чем меньше мы будем округлять полученные значения (чем больше уровней квантования), тем более точное представление сигнала в цифровой форме мы получим.
Оцифрованный сигнал в виде набора последовательных значений амплитуды можно сохранить.
Однако, надо иметь в виду, что память компьютера не бесконечна, так что каждый раз при оцифровке необходимо находить какой-то компромисс между качеством (напрямую зависящим от использованных при оцифровке параметров) и занимаемым оцифрованным сигналом объемом.
А также, частота дискретизации устанавливает верхнюю границу частот оцифрованного сигнала, а именно, максимальная частота спектральных составляющих равна половине частоты дискретизации сигнала. Попросту говоря, чтобы получить полную информацию о звуке в частотной полосе до 22050 Гц, необходима дискретизация с частотой не менее 44.1 КГц.
Существуют и другие проблемы и нюансы, связанные с оцифровкой звука. Не сильно углубляясь в подробности отметим, что в "цифровом звуке" из-за дискретности информации об амплитуде оригинального сигнала появляются различные шумы и искажения. Так, например, джиттер (jitter) - шум, появляющийся в результате того, что осуществление выборки сигнала при дискретизации происходит не через абсолютно равные промежутки времени, а с какими-то отклонениями. То есть, если, скажем, дискретизация проводится с частотой 44.1 КГц, то отсчеты берутся не точно каждые 1/44100 секунды, а то немного раньше, то немного позднее. А так как входной сигнал постоянно меняется, то такая ошибка приводит к "захвату" не совсем верного уровня сигнала. В результате во время проигрывания оцифрованного сигнала может ощущаться некоторое дрожание и искажения. Появление джиттера является результатом не абсолютной стабильности аналогово-цифровых преобразователей. Для борьбы с этим явлением применяют высокостабильные тактовые генераторы. Еще одной неприятностью является шум дробления. При квантовании амплитуды сигнала происходит ее округление до ближайшего уровня. Такая погрешность вызывает ощущение "грязного" звучания.
На практике, процесс оцифровки (дискретизация и квантование сигнала) остается невидимым для пользователя - всю черновую работу делают разнообразные программы, которые дают соответствующие команды драйверу (управляющая подпрограмма операционной системы) звуковой карты. Любая программа (будь то встроенный в Windows Recorder или мощный звуковой редактор), способная осуществлять запись аналогового сигнала в компьютер, так или иначе оцифровывает сигнал с определенными параметрами, которые могут оказаться важными в последующей работе с записанным звуком, и именно по этой причине важно понять как происходит процесс оцифровки и какие факторы влияют на ее результаты.
Программа обработки звука Audacity
Порой недостаточно просто записать звук, часто возникает необходимость в его редакции: от изменения громкости до сложных эффектов. Существует ряд программ, которые успешно справляются с данной задачей и кроме того имеют возможность извлекать звуковую информацию с компакт-дисков и, наоборот, записывать аудио CD.
Среди таких программ лидируют Sound Forge, Wave Lab, Cool Edit.
Для работы со звуком в общеобразовательной школе можно предложить кроссплатформенный бесплатный аудиоредактор Audacity.
Audacity - бесплатный, простой в использовании звуковой редактор для:
записи звука;
оцифровки аналоговых записей (кассет, грампластинок);
редактирования файлов в форматах Ogg Vorbis, MP3 и WAV;
физического редактирования нескольких файлов (вырезание, склейка, сведение);
изменения скорости и высоты тона записи и многое др.
Цифровая и аналоговая запись. Аналогово-цифровое преобразование. Микширование
Для преобразования дискретизованного сигнала в аналоговый вид, пригодный для обработки аналоговыми устройствами (усилителями и фильтрами) и последующего воспроизведения через акустические системы, служит цифроаналоговый преобразователь (ЦАП). Процесс преобразования представляет собой обратный процесс дискретизации: имея информацию о величине отсчетов (амплитуды сигнала) и беря определенное количество отсчетов в единицу времени, путем интерполирования происходит восстановление исходного сигнала.
Сначала в качестве простейшего звукового устройства в компьютере использовался встроенный динамик (PC speaker). Этот динамик присоединен к порту на материнской плате, у которого есть два положения - 1 и 0. Если этот порт быстро-быстро включать и выключать, то из динамика можно извлечь более-менее правдоподобные звуки. Воспроизведение различных частот достигается за счет того, что диффузор динамика обладает конечной реакцией и не способен мгновенно перескакивать с места на место, таким образом, он "плавно раскачивается" вследствие скачкообразного изменения напряжения на нем. И если колебать его с разной скоростью, то можно получить колебания воздуха на разных частотах. Естественной альтернативой динамику стал так называемый Covox - это простейший ЦАП, выполненный на нескольких подобранных сопротивлениях (или готовой микросхеме), которые обеспечивают перевод цифрового представления сигнала в аналоговый - то есть в реальные значения амплитуды. Covox прост в изготовлении и поэтому он пользовался успехом у любителей вплоть до того времени, когда звуковая карта стала доступной всем.
В современном компьютере звук воспроизводится и записывается с помощью звуковой карты - подключаемой, либо встроенной в материнскую плату компьютера. Задача звуковой карты в компьютере - ввод и вывод аудио. Практически это означает, что звуковая карта является тем преобразователем, который переводит аналоговый звук в цифровой и обратно. Если описывать упрощенно, то работа звуковой карты может быть пояснена следующим образом. Предположим, что на вход звуковой карты подан аналоговый сигнал и карта включена (программно). Сначала входной аналоговый сигнал попадает в аналоговый микшер, который занимается смешением сигналов и регулировкой громкости и баланса. Микшер необходим, в частности, для предоставления возможности пользователю управлять уровнями. Затем отрегулированный и сбалансированный сигнал попадает в аналогово-цифровой преобразователь, где сигнал дискретизуется и квантуется, в результате чего в компьютер по шине данных направляется бит-поток, который и представляет собой оцифрованный аудио сигнал. Вывод аудио информации почти аналогичен вводу, только происходит в обратную сторону. Поток данных, направленный в звуковую карту, преодолевает цифро-аналоговый преобразователь, который образует из чисел, описывающих амплитуду сигнала, электрический сигнал; полученный аналоговый сигнал может быть пропущен через любые аналоговые тракты для дальнейших преобразований, в том числе и для воспроизведения. Надо отметить, что если звуковая карта оборудована интерфейсом для обмена цифровыми данными, то при работе с цифровым аудио никакие аналоговые блоки карты не задействуются.
Импульсная и частотная модуляция. Хранение оцифрованного звука
Для хранения цифрового звука существует много различных способов. Во-первых, блок оцифрованной аудио информации можно записать в файл "как есть", то есть последовательностью чисел (значений амплитуды). В этом случае существуют два способа хранения информации.
Первый - PCM (Pulse Code Modulation - импульсно-кодовая модуляция) - способ цифрового кодирования сигнала при помощи записи абсолютных значений амплитуд (бывают знаковое или беззнаковое представления). Именно в таком виде записаны данные на всех аудио CD.
Второй способ - ADPCM (Adaptive Delta PCM - адаптивная относительная импульсно-кодовая модуляция) - запись значений сигнала не в абсолютных, а в относительных изменениях амплитуд (приращениях).
Во-вторых, можно сжать или упростить данные так, чтобы они занимали меньший объем памяти, нежели будучи записанными "как есть". Тут тоже имеются два пути.
Кодирование данных без потерь (lossless coding) - это способ кодирования аудио, который позволяет осуществлять стопроцентное восстановление данных из сжатого потока. К такому способу уплотнения данных прибегают в тех случаях, когда сохранение оригинального качества данных критично. Существующие сегодня алгоритмы кодирования без потерь (например, Monkeys Audio) позволяют сократить занимаемый данными объем на 20-50%, но при этом обеспечить стопроцентное восстановление оригинальных данных из полученных после сжатия. Подобные кодеры - это своего рода архиваторы данных (как ZIP, RAR и другие), только предназначенные для сжатия именно аудио.
Имеется и второй путь кодирования - кодирование данных с потерями (lossy coding). Цель такого кодирования - любыми способами добиться схожести звучания восстановленного сигнала с оригиналом при как можно меньшем объеме упакованных данных. Это достигается путем использования различных алгоритмов "упрощающих" оригинальный сигнал (выкидывая из него "ненужные" слабослышимые детали), что приводит к тому, что декодированный сигнал фактически перестает быть идентичным оригиналу, а лишь похоже звучит. Методов сжатия, а также программ, реализующих эти методы, существует много. Наиболее известными являются MPEG-1 Layer I, II, III (последним является всем известный MP3), MPEG-2 AAC (advanced audio coding), Ogg Vorbis, Windows Media Audio (WMA), TwinVQ (VQF), MPEGPlus, TAC, и прочие. В среднем, коэффициент сжатия, обеспечиваемый такими кодерами, находится в пределах 10-14 (раз). Надо особо подчеркнуть, что в основе всех lossy-кодеров лежит использование так называемой психоакустической модели, которая как раз и занимается "упрощением" оригинального сигнала. Говоря точнее, механизм подобных кодеров выполняет анализ кодируемого сигнала, в процессе которого определяются участки сигнала, в определенных частотных областях которых имеются неслышные человеческому уху нюансы (замаскированные или неслышимые частоты), после чего происходит их удаление из оригинального сигнала. Таким образом, степень сжатия оригинального сигнала зависит от степени его "упрощения"; сильное сжатие достигается путем "агрессивного упрощения" (когда кодер "считает" ненужными множественные нюансы), такое сжатие, естественно, приводит к сильной деградации качества, поскольку удалению могут подлежать не только незаметные, но и значимые детали звучания. Говоря о способах хранения звука в цифровом виде нельзя не вспомнить и о носителях данных. Всем привычный аудио компакт-диск, появившийся в начале 80-х годов, широкое распространение получил именно в последние годы (что связано с сильным удешевлением носителя и приводов). А до этого носителями цифровых данных являлись кассеты с магнитной лентой, но не обычные, а специально предназначенные для так называемых DAT-магнитофонов. Эти магнитофоны использовались, в основном, в студиях звукозаписи. Преимущество таких магнитофонов было в том, что, не смотря на использование привычных носителей, данные на них хранились в цифровом виде и практически никаких потерь при чтении/записи на них не было (что очень важно при студийной обработке и хранении звука). Сегодня появилось большое количество различных носителей данных, кроме привычных всем компакт дисков. Носители совершенствуются и с каждым годом становятся более доступными и компактными. Это открывает большие возможности в области создания мобильных аудио проигрывателей.
Сэмплирование
Сэмплирование - это запись образцов звучания (сэмплов) того или иного реального музыкального инструмента. Сэмплирование является основой волнового синтеза (WT-синтеза) музыкальных звуков. Если при частотном синтезе (FM-синтезе) новые звучания получают за счет разнообразной обработки простейших стандартных колебаний, то основой WT-синтеза являются заранее записанные звуки традиционных музыкальных инструментов или звуки, сопровождающие различные процессы в природе и технике. С сэмплами можно делать все, что угодно. Можно оставить их такими, как есть, и WT-синтезатор будет звучать голосами, почти неотличимыми от голосов инструментов-первоисточников. Можно подвергнуть сэмплы модуляции, фильтрации, воздействию эффектов и получить самые фантастические, неземные звуки.
В принципе, сэмпл - это ни что иное, как сохраненная в памяти синтезатора последовательность цифровых отсчетов, получившихся в результате аналого-цифрового преобразования звука музыкального инструмента. Если бы не существовала проблема экономии памяти, то звучание каждой ноты можно было бы записать в исполнении каждого музыкального инструмента. А игра на таком синтезаторе представляла бы собой воспроизведение этих записей в необходимые моменты времени. Сэмплы хранятся в памяти не в том виде, в каком они получаются сразу же после прохождения АЦП. Запись подвергается хирургическому воздействию, делится на характерные части (фазы): начало, протяженный участок, завершение звука. В зависимости от применяемой фирменной технологии эти части могут делиться на еще более мелкие фрагменты. В памяти хранится не вся запись, а лишь минимально необходимая для ее восстановления информация о каждом из фрагментов. Изменение протяженности звучания производится за счет управления числом повторений отдельных фрагментов.
В целях еще большей экономии памяти был разработан способ синтеза, позволяющий хранить сэмплы не для каждой ноты, а лишь для некоторых. В этом случае изменения высоты звучания достигается путем изменения скорости воспроизведения сэмпла.
Для создания и воспроизведения сэмплов служит синтезатор. В наши дни синтезатор конструктивно реализован в одном-двух корпусах микросхем, которые представляет собой специализированный процессор для осуществления всех необходимых преобразовании. Из закодированных и сжатых с помощью специальных алгоритмов фрагментов он собирает сэмпл, задает высоту его звучания, изменяет в соответствии с замыслом музыканта форму огибающей колебания, имитируя либо почти неощутимое касание, либо удар по клавише или струне. Кроме того, процессор добавляет различные эффекты, изменяет тембр с помощью фильтров и модуляторов.
В звуковых картах находят применение несколько синтезаторов различных фирм. Наряду с сэмплами, записанными в ПЗУ звуковой карты, в настоящее время стали доступными наборы сэмплов (банки), созданные как в лабораториях фирм, специализирующихся на синтезаторах, так и любителями компьютерной музыки. Эти банки можно найти на многочисленных лазерных дисках и в Internet.
Аппаратура
Немаловажная часть разговора о звуке связана с аппаратурой. Существует много различных устройств для обработки и ввода/вывода звука. Касательно обычного персонального компьютера следует подробнее остановиться на звуковых картах. Звуковые карты принято делить на звуковые, музыкальные и звукомузыкальные. По конструкции же все звуковые платы можно разделить на две группы: основные (устанавливаемые на материнской плате компьютера и обеспечивающие ввод и вывод аудио данных) и дочерние (имеют принципиальное конструктивное отличие от основных плат - они чаще всего подключаются к специальному разъему, расположенному на основной плате). Дочерние платы служат чаще всего для обеспечения или расширения возможностей MIDI-синтезатора.
Звукомузыкальные и звуковые платы выполняются в виде устройств, вставляемых в слот материнской платы (либо уже встроены в нее изначально). Визуально они имеют обычно два аналоговых входа - линейный и микрофонный, и несколько аналоговых выходов: линейные выходы и выход для наушников. В последнее время карты стали оснащаться также и цифровым входом и выходом, обеспечивающим передачу аудио между цифровыми устройствами. Аналоговые входы и выходы обычно имеют разъемы, аналогичные разъемам головных наушников (1/8”). Вообще, входов у звуковой платы немного больше, чем два: аналоговые CD, MIDI и другие входы. Они, в отличие от микрофонного и линейного входов, расположены не на задней панели звуковой платы, а на самой плате; могут иметься и другие входы, например, для подключения голосового модема. Цифровые входы и выходы обычно выполнены в виде интерфейса S/PDIF (интерфейс цифровой передачи сигналов) с соответствующим разъемом (S/PDIF - сокращение от Sony/Panasonic Digital Interface - цифровой интерфейс Sony/Panasonic). S/PDIF - это "бытовой" вариант более сложного профессионального стандарта AES/EBU (Audio Engineering Society / European Broadcast Union). Сигнал S/PDIF используется для цифровой передачи (кодирования) 16-разрядных стерео данных с любой частотой дискретизации. Помимо перечисленного, на звукомузыкальных платах имеется MIDI-интерфейс с разъемами для подключения MIDI-устройств и джойстиков, а также для подсоединения дочерней музыкальной карты (хотя в последнее время возможность подключения последней становится редкостью). Некоторые модели звуковых карт для удобства пользователя оснащаются фронтальной панелью, устанавливаемой на лицевой стороне системного блока компьютера, на которой размещаются разъемы, соединенные с различными входами и выходами звуковой карты.
Определим несколько основных блоков, из которых состоят звуковые и звукомузыкальные платы.
1. Блок цифровой обработки сигналов (кодек). В этом блоке осуществляются аналого-цифровые и цифро-аналоговые преобразования (АЦП и ЦАП). От этого блока зависят такие характеристики карты, как максимальная частота дискретизации при записи и воспроизведении сигнала, максимальный уровень квантования и максимальное количество обрабатываемых каналов (моно или стерео). В немалой степени от качества и сложности составляющих этого блока зависят и шумовые характеристики.
2. Блок синтезатора. Присутствует в музыкальных картах. Выполняется на основе либо FM-, либо WT-синтеза, либо на обоих сразу. Может работать как под управлением собственного процессора, так и под управлением специального драйвера.
3. Интерфейсный блок. Обеспечивает передачу данных по различным интерфейсам (например, S/PDIF). У чисто звуковой карты этот блок чаще отсутствует.
4. Микшерный блок. В звуковых платах микшерный блок обеспечивает регулировку:
уровней сигналов с линейных входов;
уровней с MIDI входа и входа цифрового звука;
уровня общего сигнала;
панорамирования;
тембра.
Что такое MIDI-синтезатор? Название этого устройства пошло от его основного предназначения - синтеза звука. Основных методов синтеза звука существует всего два: FM (Frequency modulation - частотная модуляция) и WT (Wave Table - таблично-волновой). В основе FM-синтеза лежит идея, что любое даже самое сложное колебание является по сути суммой простейших синусоидальных. Таким образом, можно наложить друг на друга сигналы от конечного числа генераторов синусоид и путем изменения частот синусоид получать звуки, похожие на настоящие. Таблично-волновой синтез основывается на другом принципе. Синтез звука при использовании такого метода достигается за счет манипуляций над заранее записанными (оцифрованными) звуками реальных музыкальных инструментов. Эти звуки (они называются сэмплами) хранятся в постоянной памяти синтезатора.
Надо отметить, что поскольку MIDI-данные - это набор команд, то музыка, которая написана с помощью MIDI, также записывается с помощью команд синтезатора. Иными словами, MIDI-партитура - это последовательность команд: какую ноту играть, какой инструмент использовать, какова продолжительность и тональность ее звучания и так далее. Знакомые многим MIDI-файлы (. MID) есть нечто иное, как набор таких команд. Естественно, что поскольку имеется великое множество производителей MIDI-синтезаторов, то и звучать один и тот же файл может на разных синтезаторах по-разному (потому что в файле сами инструменты не хранятся, а есть лишь только указания синтезатору какими инструментами играть, в то время как разные синтезаторы могут звучать по-разному).
Программное обеспечение
Наиболее важный класс программ - редакторы цифрового аудио. Основные возможности таких программ это, как минимум, обеспечение возможности записи (оцифровки) аудио и сохранение на диск. Развитые представители такого рода программ позволяют намного больше: запись, многоканальное сведение аудио на нескольких виртуальных дорожках, обработка специальными эффектами (как встроенными, так и подключаемыми извне - об этом позже), очистка от шумов, имеют развитую навигацию и инструментарий в виде спектроскопа и прочих виртуальных приборов, управление/управляемость внешними устройствами, преобразование аудио из формата в формат, генерация сигналов, запись на компакт диски и многое другое. Некоторые из таких программ: Cool Edit Pro (Syntrillium), Sound Forge (Sonic Foundry), Nuendo (Steinberg), Samplitude Producer (Magix), Wavelab (Steinberg), Dart.
Специализированные реставраторы аудио позволяют восстановить утерянное качество звучания аудио материала, удалить нежелательные щелчки, шумы, треск, специфические помехи записей с аудио-кассет, и провести другую корректировку аудио. Программы подобного рода: Dart, Clean (от Steinberg Inc), Audio Cleaning Lab. (от Magix Ent), Wave Corrector.
Саундтреки
Саундтреки - это музыка к фильмам. Этот жанр считается очень выгодным: для оркестрантов (сыграл один раз, а получил как за целую гастрольную поездку), для дирижера (для солидных фильмов обычно и оркестры приглашаются хорошие, а руководить такими - одно удовольствие), для композитора (услышать свою партитуру в великолепном исполнении - такое сейчас мало кому удается).
Самые яркие саундтреки становятся символом фильма, оркестровые темы путешествуют из серии в серию (тот же марш из "Звездных войн" открывает все "эпизоды"), Джеймс Хорнер стал настолько известным именно из-за своей музыки к Титанику, кстати, он сам и дирижировал оркестром. В корпорации Sony есть отдел, который занимается исключительно продажей музыки к фильмам. Он так и называется: Sony music soundtrax.
Обычно саундтреки исполняются только один раз - при записи в студии. Но для хитов делаются исключения. Например, весной этого года в московской консерватории исполнялась музыка к фильму "Пианино". Был аншлаг.
Слово саундтрэк так прочно вошло в повседневный язык, что часто слышишь что-то вроде: "Шостакович. Романс из саундтрэка к кинофильму "Овод".
Sony Cinescore - программа для создания профессиональных саундтреков и озвучивания видеоматериалов. Cinescore автоматически генерирует неограниченное число музыкальных композиций, используя легальные темы, охватывающие практически все музыкальные жанры и направления. Можно создавать аудиодорожку определенной длины, увеличивать или уменьшать темп, чтобы музыка соответствовала происходящему на экране. В базе программы множество свободно распространяемых музыкальных тем.
Cinescore устанавливает новые уровни индивидуального приспособления к требованиям пользователя, качества и точности в мире профессионального создания саундтреков. Обеспечивается возможность автоматического создания неограниченного числа музыкальных композиций с использованием наборов бесплатных тем в широком разнообразии популярных стилей.
Cinescore генерирует неограниченное число полностью оркестрованных композиций, индивидуально подобранных для видеосюжета в точном соответствии с заданной длительностью. Можно отрегулировать параметры, такие как настроение, темп и интенсивность для создания из сложных песен любых коротких и приятных аранжировок саундтреков. ПО Cinescore предоставляет необходимые инструментальные средства и гибкость для создания индивидуального звучания песен с полным управлением звуковым сопровождением.
С помощью программы можно получить полный контроль над медиасредствами и создать свой индивидуальный саундтрек с возможностью точной подстройки уровня, панорамирования, высоты тона и темпа.
Программа Cinescore импортирует разнообразные файловые форматы для простого создания проектов, включая AVI, AIF, BMP, JPG, MP3, видео MPEG 1 и MPEG 2, PCA, PSD, QT, SWF, WAV и WMV. Можно создавать динамичные и эффектные музыкальные треки для фильмов, слайд-шоу, рекламные ролики и радиопрограммы одним щелчком мыши, осуществлять экспорт в популярных форматах, таких как MPEG-2 для DVD и MPEG-4 для портативных медиа-плееров.
Заключение
Обработка звука бывает разноплановой и зависит от целей, которые вы преследуете. Это может быть подавление шумов, наложение звуковых фильтров, добавление реверберации или дилея, выведение на передний план определённых частот и т.п.
Обработка звука в реальном времени с помощью модулей DirectX оказалась настолько привлекательной для многих музыкантов, что они начали активно использовать именно их, почти «забыв» о существовании основных функций программ обработки. Разумеется, семейство программ звуковой обработки не исчерпывается программами Sound Forge и Cool Edit Pro. Существуют и другие профессиональные программы, служащие тем же целям. Среди них можно особенно отметить WaveLab от компании Steinberg — программу, известную быстротой выполнения алгоритмов звукового преобразования. Она предоставляет также большие возможности по работе с записью Audio CD (звуковых компакт-дисков) и, кроме того, способна работать с подключаемыми модулями VST.
Довольно широко известна также программа Wave SE, входящая в стандартную поставку некоторых звуковых карт от компании Turtle Beach. Она предназначена в основном для работы с сэмплами, хотя имеет и традиционные возможности звуковой обработки. Однако алгоритмы обработки этой программы весьма далеки от совершенства.
Выбор программы звуковой обработки во многом зависит от вкусов пользователя. Однако все эти программы в последнее время имеют весьма похожий пользовательский интерфейс, так что если вы освоили работу с описанными здесь программами Sound Forge и Cool Edit Pro, легко сможете освоить и другие звуковые программы.
Иными словами, цифровая обработка - это одна из перспективных областей высоких наукоемких технологий - high tech - привлекательная для приложения сил.
Список литературы
Рахимов, Компьютерные технологии в музыке/Р.Г. Рахимов. - Уфа: ООО «Вагант», 2007. – 39 c.
http://www.centrmag.ru/book2202642.html
http://www.mirhifi.ru/
http://vooch.narod.ru/read/obrabotka_zvuka.htm
http://cjcity.ru/news/all/edit-soft.php
http://www.geocities.com/SiliconValley/Pines/7899/studio/studio.htm
http://websound.ru/articles/theory/soundfaq.htm
http://www.vstpro.ru/category_3.html
http://www.interestprograms.ru/books_sound3.php
http://soundmake.narod.ru/teoriy/obr/3/3.html
http://tmn.fio.ru/works/44x/306/s041.htm
12. http://gitaman.narod.ru/info/comp.myz/gl8/gl8.html
13. Специализированный процессор для выполнения быстрого преобразования Фурье и обработки сигналов СПФ СМ. Рекламные материалы. М.: ИНЭУМ, 1984.
14. Корнеев В. В., Киселев А. В. Современные микропроцессоры. М.: НОЛИДЖ, 1998. 240 с.
15. Цифровые процессоры обработки сигналов. Справочник. Остапенко А. Г., Лавлинский С. И., Сушков А. В. и др. Под ред. А. Г. Остапенко. М.: Радио и связь, 1994. 264 с.
16. Клингман Э. Проектирование специализированных микропроцессорных систем. Пер. с англ. М.: Мир, 1985. 363 с.
17. Белоус А. И. и др. Микропроцессорный комплект БИС серии К1815 для цифровой обработки сигналов. Справочник. Белоус А. И., Поддубный О. Б., Журба В. М. Под ред. А. И. Сузопарова. М.: Радио и связь, 1992. 256 с.
18. Лапа В. Г. Математические основы кибернетики. Киев, Высшая школа, 1974. 452 с.