Машинный слух. Как работает идентификация человека по голосу

SSHMAN · 25.02.2020

Ты, возможно, уже сталкивался с идентификацией по голосу. Она используется в банках для идентификации по телефону, для подтверждения личности на пунктах контроля и в бытовых голосовых ассистентах, которые могут узнавать хозяина. Знаешь ли ты, как это работает? Я решил разобраться в подробностях и сделать свою реализацию.

Характеристики голоса
В первую очередь голос определяется его высотой. Высота — это основная частота звука, вокруг которой строятся все движения голосовых связок. Эту частоту легко почувствовать на слух: у кого-то голос выше, звонче, а у кого-то ниже, басовитее.

Другой важный параметр голоса — это его сила, количество энергии, которую человек вкладывает в произношение. От силы голоса зависит его громкость, насыщенность.

Еще одна характеристика — то, как голос переходит от одного звука к другому. Этот параметр наиболее сложный для понимания и для восприятия на слух, хотя и самый точный — как и отпечаток пальца.

Предобработка звука
Человеческий голос — это не одинокая волна, это сумма множества отдельных частот, создаваемых голосовыми связками, а также их гармоники. Из-за этого в обработке сырых данных волны тяжело найти закономерности голоса.

Нам на помощь придет преобразование Фурье — математический способ описать одну сложную звуковую волну спектрограммой, то есть набором множества частот и амплитуд. Эта спектрограмма содержит всю ключевую информацию о звуке: так мы узнаем, какие в исходном голосе содержатся частоты.

Но преобразование Фурье — математическая функция, которая нацелена на идеальный, неменяющийся звуковой сигнал, поэтому она требует практической адаптации. Так что, вместо того чтобы выделять частоты из всей записи сразу, эту запись мы поделим на небольшие отрезки, в течение которых звук не будет меняться. И применим преобразование к каждому из кусочков.

Спектрограмма пения птицы

Выбрать длительность блока несложно: в среднем один слог человек произносит за 70–80 мс, а интонационно выделенный вдвое дольше — 100–150 мс. Подробнее об этом можно почитать в исследовании.

Следующий шаг — посчитать спектрограмму второго порядка, то есть спектрограмму от спектрограммы. Это нужно сделать, поскольку спектрограмма, помимо основных частот, также содержит гармоники, которые не очень удобны для анализа: они дублируют информацию. Расположены эти гармоники на равном друг от друга расстоянии, единственное их различие — уменьшение амплитуды.

Давай посмотрим, как выглядит спектр монотонного звука. Начнем с волны — синусоиды, которую издает, например, проводной телефон при наборе номера.

Видно, что, кроме основного пика, на самом деле представляющего сигнал, есть меньшие пики, гармоники, которые полезной информации не несут. Именно поэтому, прежде чем получать спектрограмму второго порядка, первую спектрограмму логарифмируют, чем получают пики схожего размера.

Логарифм спектрограммы синуса
Теперь, если мы будем искать спектрограмму второго порядка, или, как она была названа, «кепстр» (анаграмма слова «спектр»), мы получим во много раз более приличную картинку, которая полностью, одним пиком, отображает нашу изначальную монотонную волну.

Кепстр
Одна из самых полезных особенностей нашего слуха — его нелинейная природа по отношению к восприятию частот. Путем долгих экспериментов ученые выяснили, что эту закономерность можно не только легко вывести, но и легко использовать.

Зависимость мела от герца
Эту новую величину назвали мел, и она отлично отражает способность человека распознавать разные частоты — чем выше частота звука, тем сложнее ее различить.

График перевода герца в мелы
Теперь попробуем применить все это на практике.

Идентификация с использованием MFCC
Мы можем взять длительную запись голоса человека, посчитать кепстр для каждого маленького участка и получить уникальный отпечаток голоса в каждый момент времени. Но этот отпечаток слишком большой для хранения и анализа — он зависит от выбранной длины блока и может доходить до двух тысяч чисел на каждые 100 мс. Поэтому из такого многообразия необходимо извлечь определенное количество признаков. С этим нам поможет мел-шкала.

Мы можем выбрать определенные «участки слышимости», на которых просуммируем все сигналы, причем количество этих участков равно количеству необходимых признаков, а длины и границы участков зависят от мел-шкалы.

Вычисление мел-частотных кепстральных коэффициентов
Вот мы и познакомились с мел-частотными кепстральными коэффициентами (MFCC). Количество признаков может быть произвольным, но чаще всего варьируется от 20 до 40.

Эти коэффициенты отлично отражают каждый «частотный блок» голоса в каждый момент времени, а значит, если обобщить время, просуммировав коэффициенты всех блоков, мы сможем получить голосовой отпечаток человека.

Тестирование метода
Давай скачаем несколько записей видео с YouTube, из которых извлечем голос для наших экспериментов. Нам нужен чистый звук без шумов. Я выбрал канал TED Talks.

Скачаем несколько видеозаписей любым удобным способом, например с помощью утилиты youtube-dl. Она доступна через pip или через официальный репозиторий Ubuntu или Debian. Я скачал три видеозаписи выступлений: двух женщин и одного мужчины.

Затем преобразуем видео в аудио, создаем несколько кусков разной длины без музыки или аплодисментов.

$ ffmpeg -ss 00:00:27.0 -i man1.webm -t 200 -vn man1.1.wav

Теперь разберемся с программой на Python 3. Нам понадобятся библиотеки numpy для вычислений и librosa для обработки звука, которые можно установить с помощью pip. Для твоего удобства все сложные вычисления коэффициентов упаковали в одну функцию librosa.feature.mfcc. Загрузим звуковую дорожку и извлечем характеристики голоса.

Результат:

same 0.08918786797751492

same 0.04016324022920391

diff 0.8353932676024817

diff 0.5290006939899561

diff 0.5996234966734799

diff 0.9143384850090941

Протестируем новую программу.

same 0.07287868313339689

same 0.07599075249316399

diff 1.1107063027198296

diff 0.9556985491806391

diff 0.9212706723328299

diff 1.019240307344966

Мы посчитали значения различных признаков.

Эти графики показывают, как наша программа сравнивает значения разных признаков. Красным и зеленым цветами обозначены коэффициенты, которые были получены из голосов двух женщин: по две записи на каждую. Линии одинакового цвета находятся близко друг к другу — голос одного и того же человека. Линии разных цветов расположены дальше друг от друга, поскольку это голоса разных людей.

Теперь сравним мужской и женский голоса.

same 0.07287868313339689

same 0.1312549383658766

diff 1.4336642787341562

diff 1.5398833283440216

diff 1.9443562070029585

diff 1.6660100959317368

Графики коэффициентов для мужчины и женщины
Здесь различия более выражены, это видно и на графике. Голос мужчины более низкий: пики больше в начале графика и меньше в конце.

Этот алгоритм действительно работает, и работает хорошо. Главный его недостаток — зависимость точности результата от шумов и длительности записи. Если запись короче десяти секунд, точность стремительно убывает.

Идентификация голоса с помощью нейронных сетей
Мы можем улучшить наш алгоритм с помощью нейронных сетей, которые на таких задачах показывают невероятную эффективность. Используем библиотеку Keras для создания модели нейронной сети.

В этой модели используется два слоя долгой краткосрочной памяти (Long Short-Term Memory), которые позволяют нейронной сети анализировать не только сам голос, его высоту и силу, но и его динамические параметры, например переходы между звуками голоса.

Тестирование метода
Давай обучим модель и посмотрим на ее результаты.

Epoch 1/20

5177/5177 [====================] - loss: 0.4099 - acc: 0.8134 - val_loss: 0.2545 - val_acc: 0.8973

...

Epoch 20/20

5177/5177 [====================] - loss: 0.0360 - acc: 0.9944 - val_loss: 0.2077 - val_acc: 0.9807

[0.18412712604838924, 0.9819283065512979]

Отлично! 98% точности — хороший результат. Посмотрим статистику точности по каждому отдельному человеку.

woman1: 98.4%

woman2: 99.0% - цель

man1: 98.4%

Нейронная сеть справляется прекрасно, преодолевая большинство помех: шумы и ограничения по длине записи (нейронная сеть анализирует всего по одной секунде записи за раз). Такой способ идентификации человека наиболее перспективен и эффективен.

Выводы
Технологии распознавания человека по его голосу находятся только лишь на стадии научных исследований и разработок, и поэтому в открытом доступе хороших и популярных решений нет. Однако в коммерческом секторе такие программные продукты уже распространяются, чем облегчают работу сотрудников кол-центров, разработчиков умных домов. Теперь и ты можешь использовать этот прием на работе или для своих проектов.

Интересно Купил видеокарту — подарил данные хакерам. Как Canada Computers «защищает» своих клиентов.	Новости в сети	0	Вчера в 22:34
Статья Как понять что в файле склейка	Вирусология	0	Воскресенье в 01:10
Интересно Как взломать взломщика? Достаточно найти в его коде одну «забытую кнопку».	Новости в сети	0	Воскресенье в 01:03
Интересно Хакер думал, что украл пароль, а на самом деле – позвонил в полицию. На GitHub учат, как развести взломщика на эмоции (и логи).	Новости в сети	0	27.01.2026
Интересно Четверть биткоина за «квантовые мозги». Рассказываем, как поднять крипту на знании физики.	Новости в сети	0	26.01.2026
Интересно Один пакет = полный контроль VMware — дыру не латают 18 месяцев, серверы падают как домино.	Новости в сети	0	26.01.2026
Статья Как на основе ФИО, даты рождения и района получить номер паспорта и ИНН.	OSINT	0	25.01.2026
Статья Ядовитые гифки. Как работает уязвимость GIFShell	Уязвимости и взлом	0	22.01.2026
Статья Пентест. Как получить свои первые root права.	Уязвимости и взлом	0	21.01.2026
Интересно Ваш компьютер ведет двойную жизнь. Как домашние IP становятся инструментом в руках хакеров.	Новости в сети	0	21.01.2026
Интересно «Отдай мастер-пароль, или всё удалим!». Как хакеры берут на мушку пользователей LastPass.	Новости в сети	0	21.01.2026
Интересно Секретные настройки браузера для боссов: как вычистить всё лишнее из Chrome и Firefox без сомнительных форков.	Новости в сети	0	20.01.2026
Интересно Сначала помогут, потом ограбят. Как хакеры превратили Microsoft Quick Assist в «троянского коня».	Новости в сети	0	20.01.2026
Интересно Ваш принтер не то, чем кажется. Как хакеры прячут вирусы в установщиках драйверов.	Новости в сети	0	18.01.2026
Статья Как правильно изучать malware-кодинг под Windows	Вирусология	0	17.01.2026
Интересно «Пароль01» и дырявый VPN. Как пустить хакеров в сеть, чтобы они сломали вообще всё (пошаговая инструкция).	Новости в сети	0	12.01.2026
Статья Как "Казаки" паттерны мошенников-"Разбойников" вычисляют, вооружаясь технологиями.	Анонимность и приватность	0	10.01.2026
Интересно Ваш сервер — их притон: как группа UAT-7290 сдает ваши сервера в аренду своим друзьям. Дорого.	Новости в сети	0	09.01.2026
Интересно Как стать «богом» в Linux, просто правильно подгадав время. Спойлер: вам понадобится Chronomaly.	Новости в сети	0	09.01.2026
Статья Как оставаться незаметным в 2025 году – простые правила оперативной безопасности для всех.	Анонимность и приватность	0	08.01.2026
Статья HTTP Request Smuggling в 2025: Как обходить современные WAF	Уязвимости и взлом	0	07.01.2026
Статья Криптография в малвари: Как работают вымогатели (Ransomware).	Полезные статьи	0	07.01.2026
Статья Право на root. Как повышают привилегии в Linux.	Уязвимости и взлом	0	02.01.2026
Статья Как простой баг повреждения памяти ядра Linux приводит к полной компрометации системы(Часть 2)	Уязвимости и взлом	0	02.01.2026
Статья Как простой баг повреждения памяти ядра Linux приводит к полной компрометации системы(Часть 1)	Уязвимости и взлом	0	02.01.2026
Статья Как Mozilla упустила (не)очевидную уязвимость	Уязвимости и взлом	0	02.01.2026
Статья Почему ваш «Windows» прокси палится как Linux: Глубокий разбор TCP Window Size, о котором молчат.	Анонимность и приватность	0	31.12.2025
Интересно Старый конь борозды не испортит. Как сертификат десятилетней давности помог хакерам проникнуть в госучреждения Азии.	Новости в сети	0	30.12.2025
Статья Direct Syscalls vs EDR: Как заставить Windows выполнять ваши команды в обход хуков защитного ПО	Вирусология	0	29.12.2025
Интересно Gemini лезет из каждой дыры Chrome? Вот как убить все ИИ-кнопки и вернуть нормальный браузер.	Новости в сети	0	28.12.2025
Интересно «Здравствуйте, я журналист, заполните анкету». Как хакеры из КНДР «разводят» южнокорейских экспертов.	Новости в сети	0	27.12.2025
Статья Гейминг как источник данных: OSINT в виртуальных мирах	OSINT	0	27.12.2025
Статья Крипто-детектив: Идем по следу транзакций. Как деанонить блокчейн.	OSINT	0	27.12.2025
Интересно Семь миллионов долларов за одну ночь. Рассказываем, как пострадали пользователи Trust Wallet и что делать сейчас.	Новости в сети	0	27.12.2025
Интересно Казалось, что летим, а на деле — ползём. Как ИИ-помощники незаметно крадут время у профессиональных кодеров.	Новости в сети	0	25.12.2025
Статья Анонимные мессенджеры: Как общаться, не оставляя следов	Анонимность и приватность	0	24.12.2025
Интересно Охотник стал добычей. Как «безопасники» ловят вирусы, пытаясь скачать инструменты для их поиска.	Новости в сети	0	24.12.2025
Интересно Цифровое чудо на Рождество. Как ученым удалось восстановить UNIX V4 с ленты 1970-х годов.	Новости в сети	0	24.12.2025
Статья Взгляд с другой стороны: как Linux админ ловит вас	Полезные статьи	0	20.12.2025
Статья Как отслеживается e-mail?	OSINT	0	19.12.2025
«Менеджер» с архивом и черным ходом через Yandex. Как группировка APT31 годами шпионила за российскими IT-компаниями	Новости в сети	1	24.11.2025
От 314 до 968 млрд рублей. Как российский рынок кибербезопасности станет монополией за 6 лет	Новости в сети	0	18.11.2025
Перевод крупной суммы по СБП на свой же счёт будет расцениваться банком как подозрительный	Новости в сети	0	13.11.2025
Перехват DNS – что это за атака и как она работает?	Новости в сети	0	10.11.2025
Суверенный Рунет. Мишустин подписал постановление о том, как им будут управлять (и от чего защищать)	Новости в сети	0	10.11.2025
$120000000 испарились за утро: как хакерам удалось обойти 10 аудитов и причем здесь ракетная программа КНДР	Новости в сети	0	05.11.2025
Одна буква — миллионные потери. Как русская «Е» обманула разработчиков и присвоила их крипту	Новости в сети	0	24.10.2025
«Ага, туннель! Придушим». Ваш VPN тоже лагает на 4G? Объясняем, как операторы видят ваш трафик (и что с этим делать)	Новости в сети	0	22.10.2025
«Магический пакет» творит чудеса: как хакеры превратили Linux-сервер в невидимку	Новости в сети	0	17.10.2025
Касперский против ChatGPT: как антивирус вычислил вредонос, написанный ИИ	Новости в сети	0	16.10.2025

Машинный слух. Как работает идентификация человека по голосу

SSHMAN

Название темы