Анализ аудиоданных с помощью глубокого обучения и python (часть 1)
Содержание
- 1 Окно Spectrum Analyzer
- 2 Анализаторы спектра. Общие сведения
- 3 Приёмы работы. Стандартные и не стандартные.
- 4 Generator
- 5 Оптический спектр анализатор
- 6 Sound Setup
- 7 Renderer
- 8 Оптические анализаторы спектра
- 9 При чем же здесь SincNet?
- 10 Форм-фактор
- 11 Программное формирование мультисессии Adobe Audition с аудиозаписями телефонных звонков
- 12 Пополнения софта для Windows
Окно Spectrum Analyzer
Представляет собой сетку частот с разметкой по частотам по горизонтали и dB или вольтам по вертикали. Последние два переключаются между собой нажатием Space Bar на клавиатуре.
- FFT length выбор формы фильтра и его диапазона обхвата.
- Scale точная настройка фильтра по гармоникам звукового файла.
- Displayнастройка графической оболчки окна анализатора. Функции включения и выключения сетки и поля пиковых показаний.
- Kind метод отображения гармоник в окне анализатора. Полезен при работе с роликами, разными по динамике. Так метод отображения плавной, широкой мелодии может быть неудобен из за того, что плавно настроенные гармоники будут дико скакать при запуске файла с рок– музыкой.
- Peaks при прослушивании звукового файла через анализатор, можно увидеть как преобладающие частоты выделяются белыми буквами, показывающими уровень и гармонику данного пика. Как это будет происходить и когда настраивается в этой вкладке.
- Decay Скорость и задержка графического изображений гармоник. Очень полезно, когда нужно тожно понять амплитуду звука. Тот же эффект достигается одним щелчком левой кнопки мыши в рабочей области. Появляется значение точки щелчка и изображение замирает. При отжатии кнопки всё продолжается в реальном времени.
Анализаторы спектра. Общие сведения
Классификация анализаторов спектра
- По диапазону частот — низкочастотные, радиодиапазона (широкополосные) и оптического диапазона.
- По принципу действия — параллельного типа (многоканальные) и последовательного типа (сканирующие).
- По способу обработки измерительной информации и представлению результатов — аналоговые и цифровые.
- По характеру анализа — скалярные, дающие информацию только об амплитудах гармонических составляющих спектра, и векторные, предоставляющие также информацию о фазовых соотношениях.
Основные свойства анализа
Анализатор спектра позволяет определить амплитуду и частоту спектральных компонентов, входящих в состав анализируемого процесса. Важнейшей его характеристикой является разрешающая способность: наименьший интервал Δf{\displaystyle \Delta f} по частоте между двумя спектральными линиями, которые ещё разделяются анализатором спектра.
Анализатор спектра может дать истинный спектр только тогда, когда анализируемое колебание x(t){\displaystyle x(t)} периодично, либо существует только в пределах интервала T{\displaystyle T}. При анализе длительностей процессов анализатор спектра даёт не истинный спектр
- S(ω)=∫−∞∞x(t)e−iωtdt{\displaystyle S(\omega )=\int \limits _{-\infty }^{\infty }x(t)e^{-i\omega t}dt},
а его оценку:
- ST(t1,ω)=∫t1t1+Tx(t)e−iωtdt{\displaystyle S_{T}(t_{1},\omega )=\int \limits _{t_{1}}^{t_{1}+T}x(t)e^{-i\omega t}dt},
зависящую от времени включения t1{\displaystyle t_{1}} и времени анализа T{\displaystyle T}. Так как спектр колебания может в общем случае изменяться во времени, то оценка ST(t1,ω){\displaystyle S_{T}(t_{1},\omega )} даёт т. н. текущий спектр.
Приёмы работы. Стандартные и не стандартные.
Прежде чем приступить к оценке и подгонке звука с помощью анализатора, рекомендую обзавестись небольшой коллекцией сэмплов. Это должны быть разноплановые и высококачественно записанные отрывки звучания разных инструментов. Такие сэмплы можно найти на компакт дисках в огромном количестве.
Нужно отобрать необходимые звуки с нужной обработкой. Если это, например, звук бас гитары, то нужно представить его в нескольких вариантах. Шагающий бас, слэп и, например техно басс. Желательно с разной обработкой эффектами. Дальнейший процесс не должен вызвать затруднений. Используя для проигрывания этого файла плейер программы анализатора и, используя его как эталон, можно подгонять редактируемый звук прямо в вашем звуковом редакторе, сравнивая значения с эталонным звучанием выбранного сэмпла в проигрывателе программы анализатора. Конфликты из за портов звуковой карты возникать не будут. Единственный недостаток упомянутого плейера втом, что он поддерживает всего один формат сэмплированого звука WAV. Но эту проблему легко обойти, вставив файл эталон в мультитрек или открыв ещё одно окно в редакторе типа Sound Forge. Как правило хорошие редакторы поддерживают многие форматы звука, а если ваш редактор этого не может , срочно его меняйте. Итак, мультитрек. Стоит выделить для файла образца отдельную дорожку и кнопками MUTE/SOLO переключатся между редактируемым сэмплом и образцом. Всё также внимательно глядя на отстроенный для этого случая анализатор. В одно дорожечном редакторе лучше разместить оба окна рядом в рабочем пространстве программы и переключатся между ними.
При анализе входного сигнала рекомендую провести ряд профилактических мероприятий, которые могут ускорить дальнейшую работу с записанным звуком и избавят вас от большей части черновой работы. Звуковой сигнал до входа на порт звуковой карты может иметь ряд помех, которые потом очень сложно убрать средствами звукового редактора. Даже если вы используете высококлассный редактор, всё равно часть гармоник будет удалена как шумы. Вашей работе могут изрядно помешать следующие факторы. Прежде всего, это шумы из за плохого качества кабелей, подведённых к компьютеру и пульту, а также не лимитированный треск в отечественной электросети. При неправильном расположении звуковой карты в корпусе компьютера тоже могут возникнуть непредвиденные помехи.
Плохие шнуры надо сразу заменить, а компьютер заземлить. При подключении шины заземления к родной матушке Земле лучше проконсультироваться со специалистом, иначе любимая кошка лишит вас компьютера вместе с монитором.
При подключении к компьютере музыкальных инструментов через предварительный усилитель, например микшерский пульт, наверняка появятся дополнительные шумы, генерируемые блоком питания пульта. Для выявления их настройте анализатор на максимальную чувствительность и включите и выключите пульт. Таким образом, выявятся частоты паразиты, смазывающие звучание вашего инструмента. Если нет шумоподавителей в железе, увеличьте сигнал с пульта и уменьшите чувствительность на компьютере. Шум должен скрыться за основной сигнал. Если взять за правило, что фонит всё, подобную процедуру нужно проводить при подключении любого инструмента или устройства к звуковой карте компьютера. С качеством нашей электросети это нелишне.
Generator
Самая интересная часть программы — генератор звуковой частоты. Диапазон генерации от 1ГЦ до 20000 ГЦ. Возможно также воспроизведение (белого) и (розового) шума. Генератор тесно связан с функцией Trigger Mod существующей во всех описанных выше окнах программы и специально не упоминавшейся. Это своего рода компрессор проходящего сигнала. Запустив генератор, можно протестировать звуковую карту и узнать, насколько подлинно её порты проводят сигнал. Чем меньше разница между частотой в генераторе и показаниями анализатора, тем более точно воспроизводится сэмпл. Если, например, в генераторе задана частота 650 ГЦ, а в окне спектроанализатора она представлена как 620 ГЦ, то эта разница компенсируется настройкой Triger Mod. Программа запоминает разницу и при сканировании очередного файла автоматически подстраивает графический интерфейс. Подробнее о настройках генератора и Trigger Mod расказывать не стоит, потому что характеристики звуковых карт даже одного класса зависит от многих причин. От качества подведённых кабелей до расположения платы в системном блоке.
Оптический спектр анализатор
Оптический спектр анализатор использует рефлексивные и/или преломляющие методы, чтобы выделить длины волны света. Электрооптический датчик используется, чтобы измерить интенсивность света, который тогда обычно показывается на экране подобным образом к радио — или спектр звуковой частоты анализатор.
Вход к оптическому спектру, которым анализатор может быть просто через апертуру в случае инструмента, оптоволокне или оптическом соединителе, к которому может быть приложен волоконно-оптический кабель.
Различные методы существуют для того, чтобы выделить длины волны. Один метод должен использовать монохроматор, например дизайн Czerny-токаря, с оптическим датчиком, помещенным в разрез продукции. Когда трение в монохроматоре перемещается, группы различных частот (цвета) ‘замечены’ датчиком, и получающийся сигнал может тогда быть подготовлен на дисплее.
Частотная характеристика оптического спектра, анализаторы имеют тенденцию быть относительно ограниченными, например, (почти инфракрасный к красному), в зависимости от намеченной цели, хотя (несколько) инструменты общей цели более широкой полосы пропускания доступны.
Sound Setup
Настройка портов звуковой карты и инсталляция в систему
Специфика программы такова, что её нельзя настроить на постоянную работу ввиду особенностей каждого проходящего сигнала. Коррекция и компенсация сигнала уникальна в каждом случае и нет универсального рецепта для всех возможных вариантов. Поэтому рекомендуется сохранять настройки для наиболее часто используемых файлов. В этом случае процедуру настройки проходить не придётся.
Show Data
В предыдущих пунктах рекомендовалось сохранять настройки окон программы для работы с определённым файлом. А этот пункт меню позволяет сохранить и использовать в дальнейшем показания всей системы анализа, включая спектрограмму и значения осциллографа. Нужно только указать какой участок и в каком месте звукового файла нужно зафиксировать на диск. Такая точная характеристика анализа позволит программе при следующем запуске точнее настроится под сэмпл.
Window, Help
Тут и так всё понятно, только будьте внимательны при основной инсталляции программы. Будет задан вопрос о языке Help. Даже независимо от основного языка второй язык программы — немецкий, отсюда наверное такая пунктуальность. В пункте помощи находится ссылка на сайт авторов. Я там был и выяснил,что этот анализатор является плагином для незнакомого мне немецкого звукового редактора, которого на сайте нет, а искать желания не возникало. Судя по дизайну анализатора, на таком редакторе можно писать сплошь одни марши.
Renderer
13
Голос | Speed | Pitch | Throat | Mouth | |
---|---|---|---|---|---|
Elf | 72 | 64 | 110 | 160 | |
Little Robot | 92 | 60 | 190 | 190 | |
Stuffy Guy | 82 | 72 | 110 | 105 | |
Little Old Lady | 82 | 32 | 145 | 145 | |
Extra-Terrestrial | 100 | 64 | 150 | 200 | |
SAM | 72 | 64 | 128 | 128 | |
DALEK | 120 | 100 | 100 | 200 |
прошлогодней статье
- : для гласных и сонорных фонов (коды 5–29 и 48–53) табличные значения частот F1 и F2 домножаются на параметры Mouth и Throat соответственно.
- : для каждого фона записывается соответствующее его длительности число значений в восемь названных параллельных списков. Сами значения берутся из таблиц по коду фона, при этом тоны переводятся из условной шкалы (1–8) в величину прибавки к параметру Pitch (1 → −32, 6 → 0, 8 → +12). Кроме того, точки и вопросительные знаки превращаются в плавное (на протяжении 30 фреймов) понижение или повышение тона, соответственно.
- : значения частот F–F3 и амплитуд F1–F3 на границе между соседними фонами линейно интерполируются. Ширина границы, внутри которой выполняется интерполяция, зависит от кодов обоих фонов.
- Частота F заменяется средним значением между ней и F1, чтобы создать «pitch contour», с которым синтезированная речь будет звучать не так монотонно.
- Наконец, значения амплитуд после интерполяции переводятся из логарифмической шкалы (децибелы) в линейную, используемую в стандартном PCM.
Оптические анализаторы спектра
Принцип действия
Анализаторы оптического спектра строятся на основе дифракционной решётки, интерферометров Майкельсона, Фабри-Перо и других интерференционных схем. В настоящее время, благодаря высокой технологичности, наибольшее распространение получили анализаторы, использующие дифракционную решётку, и только тогда, когда их разрешающая способность оказывается недостаточной, используются более дорогостоящие интерферометрические методы измерений спектра.
Применение
Анализ оптического спектра в связи с развитием технологии телекоммуникаций становится одним из важнейших видов измерений в современных волоконно-оптических системах связи. Необходимость данного вида измерений в первую очередь связана с контролем спектра источников оптического излучения, а также определением степени влияния спектральных составляющих на параметры волоконно-оптических компонентов и передачу данных по волоконно-оптическим линиям связи. При этом одним из существенных факторов ограничивающих ширину полосы пропускания высокоскоростных линий связи в настоящее время становится хроматическая дисперсия оптического волокна, которая определяется шириной спектра источника излучения и проявляется в увеличении длительности передаваемого импульса по мере его распространения по оптическому волокну, что так же требует анализа оптического спектра. Кроме этого введение в линии связи волоконно-оптических усилителей, в частности EDFA (эрбиевых усилителей) и развитие технологии WDM (мультиплексирования по длине волны) в телекоммуникациях, определяют анализ оптического спектра в процессе инсталляции и эксплуатации волоконно-оптических линий передачи (ВОЛП) как наиболее актуальный вид измерений.
ПРИМЕРЫ: ANDO AQ6331, PROLITE-60, EXFO FTB-5240S, ZET 017 U2
Основные нормируемые характеристики
- Диапазон длин волн
- Разрешение по длине волны
- Погрешность измерения по длине волны
- Диапазон отображения по амплитуде
- Погрешность измерения по амплитуде
- Динамический диапазон
При чем же здесь SincNet?
Вспомним, что мел-шкала была создана на основе человеческого психо-физического восприятия звука. Но что если мы хотим выбрать другие полосы частот, которые нас интересуют больше чем остальные в какой-либо конкретной задаче? Как выбрать самый лучший набор фильтров для решения какой-либо задачи?
Именно эту задачу и решает предложенная авторами архитектура.
Авторы рассматривают в качестве фильтра следующую функцию:
в этой формуле — это прямоугольная функция. Такой фильтр задает диапазон частот от до . Вот ее график:
С помощью обратного преобразования Фурье для этой функции можно получить ее аналог во временной области:
Функция — это импульсная характеристика идеального полосового фильтра, который нельзя реализовать практически, поэтому авторы усекают эту функцию . В цифровой обработке сигналов такой подход называется синтезом фильтров методом окон.
Усеченный окном вариант функции авторы предлагают использовать в качестве шаблона для всех сверток, применяемых к сырым аудио данным. Эта функция дифференцируема по параметрам и , а значит ее можно использовать при оптимизации параметров сети методом обратного распространения ошибки.
По теореме о свертке, свертка исходного сигнала с функцией эквивалентна умножению спектра исходного сигнала на функцию
Грубо говоря, выполняя свертку исходного сигнала с функцией , мы «обращаем внимание» нейронной сети на данный диапазон частот в рассматриваемом сигнале
Конечно, здесь не применяется преобразование Фурье и явно нейросети не сообщаются конкретные значения спектра в диапазоне . По всей видимости, задача извлечения спектральных характеристик возлагается на следующие блоки, расположенные в нейронной сети.
Из достоинств такого подхода, авторы отмечают следующее:
- Быстрая сходимость
- Гораздо меньшее количество параметров. В классическом сверточном блоке количество параметров равно длине свертки. При описанном же подходе, количество параметров не зависит от длины свертки и равно 2
- Интерпретируемость параметров
Форм-фактор
Спектр анализаторы имеет тенденцию попадать в четыре форм-фактора: benchtop, портативный, переносной и переданный.
Benchtop
Этот форм-фактор полезен для заявлений, где спектр, анализатор может быть включен в мощность переменного тока, которая обычно означает в окружающей среде лаборатории или области производства/производства. Спектр вершины скамьи анализаторы исторически предложил лучшую работу и технические требования, чем портативный или переносной форм-фактор. У спектра вершины скамьи анализаторы обычно есть многократные поклонники (со связанными вентилями), чтобы рассеять высокую температуру, произведенную процессором. Из-за их архитектуры, спектр вершины скамьи анализаторы, как правило, взвешивают больше, чем. Некоторый спектр вершины скамьи анализаторы предлагает дополнительные аккумуляторные батареи, позволяя им использоваться далеко от мощности переменного тока. Этот тип анализатора часто упоминается как «портативный» спектр анализатор..
Портативный
Этот форм-фактор полезен для любых заявлений, где спектр анализатор нужно взять снаружи, чтобы сделать измерения или просто нести в то время как в использовании. Признаки, которые вносят в полезный портативный спектр анализатор, включают:
- Дополнительная работающая от аккумулятора операция, чтобы позволить пользователю двигаться свободно снаружи.
- Ясно видимый показ, чтобы позволить экрану, который будет прочитан в ярком солнечном свете, темноте или пыльных условиях..
- Легкий вес (обычно меньше, чем).
Карманный компьютер
Этот форм-фактор полезен для любого применения, где спектр анализатор должен быть очень легким и маленьким. Переносные анализаторы предлагают ограниченную способность относительно больших систем. Признаки, которые вносят в полезный переносной спектр анализатор, включают:
- Очень низкий расход энергии.
- Работающая от аккумулятора операция, в то время как в области, чтобы позволить пользователю двигаться свободно снаружи.
- Очень небольшой размер
- Легкий вес (обычно меньше, чем).
Сетевой
Этот форм-фактор не включает показ, и эти устройства разработаны, чтобы позволить новый класс географически распределенных приложений контроля и анализа спектра. Ключевой признак — способность соединить анализатор с сетью и контролировать такие устройства через сеть. В то время как многие спектр, у анализаторов есть порт Ethernet для контроля, они, как правило, испытывает недостаток в эффективных механизмах передачи данных и слишком большой и/или дорогой, чтобы быть развернутым таким распределенным способом. Ключевые заявления на такие устройства включают системы обнаружения вторжения RF для безопасных средств, где беспроводная передача сигналов запрещена. Также операторы сотовой связи используют такие анализаторы, чтобы удаленно контролировать вмешательство в лицензированные диапазоны. Распределенная природа таких устройств позволяет геолокацию передатчиков, спектр, контролирующий для динамического доступа спектра и многих других таких заявлений.
Примеры такого спектра анализаторы включают Agilent Technologies N6841A http://www .home.agilent.com/en/pd-1414739-pn-N6841A/rf-sensor?&cc=CA&lc=eng и WSA5000 http://thinkrf.com/wsa5000 ThinkRF /
Ключевые признаки таких устройств включают:
- Сетевая эффективная передача данных
- Низкий расход энергии
- Способность синхронизировать сборы данных через сеть анализаторов
- Низкая стоимость, чтобы позволить массовое развертывание.
Программное формирование мультисессии Adobe Audition с аудиозаписями телефонных звонков
В предыдущей статье я писал про формирование векторной графики SVG с диаграммой телефонных звонков, напоминающей диаграмму Ганта. Информацию о телефонных звонках я брал из детализации, которую скачивал через личный кабинет на сайте мобильного оператора. Дело было почти четыре года назад. В настоящее время у меня появилась идея сделать проект посложнее: построить мультисессию в звуковом редакторе Adobe Audition 1.5 из аудиозаписей телефонных разговоров. При этом эти аудиозаписи расположить в мультисессии строго в соответствии по времени, а так же по датам, которым будут соответствовать треки. При этом визуально такая мультисессия будет напоминать ту же диаграмму, что и строилась в предыдущей статье. Кроме того, будет возможность оперативного масштабирования и прослушивания записей телефонных разговоров, как в «миксе», так и в режиме «соло» по дням.
Пополнения софта для Windows
-
Surge v1.7.030 июля 2020
Surge — это субтрактивный VST синтезатор. Цифровая запись — всего лишь последовательность чисел в нулях и еденицах, сохраненная на физических носителях, объединенных вместе
-
Wavosaur v1.730 июля 2020
Wavosaur — бесплатный звуковой редактор. Имеет все основные возможности такого класса программ: монтаж, анализ, пакетная обработка. Wavosaur поддерживает VST-плагины, ASIO-драйверы,
-
Nils K1v05 июля 2020
VST-ромплер, имитирующий синтезатор Kawai KM1, известная японская классика 1988 года.K1v имеет 8-битный механизм синтеза с 4 источниками на голос и полноценную реализацию
-
Imaginando DLYM v2.027 июня 2020
DLYM — это бесплатный плагин, который производит эффекты в стиле фленджер и хоруса с использованием мощной технологии обработки Imaginando.Независимо от того, хотите ли вы
-
Moncasual Giada Loop Machine v0.16.3.124 июня 2020
Приложение, созданное как минималистский. Хардкорный аудио-инструмент для ди-джеев и тех, кто выступает вживую. Giada — это бесплатный аудио-инструмент для ди-джеев и тех,