Смартфоны с голосовыми помощниками, голосовой ввод запросов и расшифровка аудиосообщений — неотъемлемая часть жизни большинства из нас. Летом Meta представила мультимодальную модель ИИ для распознавания и перевода речи почти на 100 языков, а чат GPT вводит синтез речи для устного диалога с пользователем через мобильное приложение. В московских клиниках с помощью голосового ввода заполнено более 210 тысяч протоколов диагностики. Распознавание речи — одно из главных направлений, в которых новые технологии находят свое применение. Рассказываем, как их можно применять для своих ежедневных задач.
Инструменты распознавания голоса
Распознавание голоса можно разделить на две категории:
- аутентификацию, то есть сравнение двух образцов одного и того же голоса;
- идентификация, то есть сравнение с неким стандартизированным образцом.
Голосовое опознание, как правило, принимается в суде, хоть по этому поводу годами и ведутся споры. Человек может правдоподобно имитировать чужой голос, но его шансы обмануть машину крайне невелики. А вот машина успешно копирует голос человека в случаях до 50%, поэтому преобразователи человеческого голоса довольно эффективны.
— Простая бесплатная программа Super Voice Changer при нажатии кнопки Template позволяет выбрать пресет вроде lovely girl или soft girl. Также программа позволяет изменить интонацию уже записанного голоса на другое настроение вроде pitch или tone. Это применимо и к конференциям через Zoom, где можно, например, сделать голос более деловым или приветливым.
— Еще одна бесплатная программа Clownfish Voice Changer работает только на Windows, названа в честь рыбы Немо. Позволяет менять высоту тона и добавлять шумы, если нужно сделать вид, что вы находитесь в людных местах. Также у программы есть дополнительная функция — в нее можно вставить текст, чтобы гаджет зачитал его вслух.
Для задачи чтения текста вслух есть и много отдельных программ. Например, Natural Readers — AI для преобразования текста в речь. Его преимущество в бесплатности и возможности загружать тексты большого объема. А текст до 5000 знаков вам может зачитать и платная версия Chat GPT.
Для обратной цели — преобразования голоса в печатный текст — тоже есть несколько решений.
— В Google docs в разделе «Инструменты» нужно выбрать «Голосовой ввод», нажать на микрофон и начать диктовку. Говорить нужно не быстро, разборчиво, желательно интонационно передавать завершение предложения. Проверьте, чтобы в окошке с микрофоном был выбран тот язык, на котором вы говорите. Также можно запустить ваш аудиофайл на компьютере, например, отправив его себе в «Избранное» в Telegram, включить там и нажать на микрофон в Google-документе (проверьте, чтобы при этом были включены колонки ноутбука, а не наушники или сторонний микрофон). Расшифровка от Google далека от идеала. Но часто отредактировать такой текст проще, чем набирать его полностью самостоятельно.
— Сервис Silero запустил телеграм-бота для расшифровки аудио длительностью до 10 минут. Такие записи можно бесплатно загрузить прямо боту в телеграм и получить текст. Преимущество Silero, по сравнению со многими аналогами, в том, что расшифрованный текст снабжается таймкодами, таким образом, легко найти нужный кусок на записи, чтобы при необходимости перепроверить нужный фрагмент. Сервис бесплатный, требует регистрации через e-mail.
— Для продвинутых пользователей (или тех, кому не лень немного повозиться) есть бесплатная система распознавания речи от OpenAI Whisper, обученная на огромном объеме часов речи на разных языках. У Whisper высокая устойчивость к акцентам, фоновому шуму и техническому языку. Но проблема в том, что у нее нет веб-версии как у ChatGPT. Для установки понадобится Phyton. Простая, но многошаговая инструкция по установке и использованию Whisper есть на YouTube-канале «Теплицы социальных технологий». Большое количество платных сервисов расшифровки текста использует именно Whisper.
Меры предосторожности
Технологии распознавания речи могут использоваться для так называемой социальной слежки, когда поведение пользователя изучают для рекламных и маркетинговых целей. Если вы хотите минимизировать распознаваемость своих слов, ваша задача — сделать речь неразборчивой. В этом помогают сильные фоновые шумы, естественные или искусственно сгенерированные, а также быстрая речь с использованием слов из других языков. Также полезно ограничить доступ гаджета к микрофону. Об этом мы подробно рассказывали в материале о том, как не стать жертвой телефонной прослушки, а также упоминали в инструкции о том, как обезопасить себя от вируса Pegasus.
Примеры использования
Мошенники уже несколько лет как используют изменение голоса, чтобы копировать голоса близких и друзей своих жертв. Для подмены исходящего номера существует отдельный набор программ — 2Number, «Второй номер телефона», «Подмена номера — скрыть звонок», Black-voip, CoverMe и многие другие. Иногда эта опция используется журналистами и активистами в благих целях общественного интереса. Самый известный пример — звонок Алексея Навального 14 декабря 2020 года предполагаемому соучастнику его отравления, сотруднику ФСБ Константину Кудрявцеву. Навальный представился помощником секретаря Совбеза Николая Патрушева, при этом исходящий номер телефона был подменен на номер приемной.
Что мне с этого?
Технологии расшифровки аудио в текст и наоборот значительно экономят ваше время. Что касается механизма искажения голоса, он может использоваться в благих целях: когда нужно собрать информацию и сохранить анонимность. Но также его используют и мошенники. Жертвы, которым якобы звонили их родственниками с просьбой срочно перечислить деньги, часто оказываются убеждены, что в трубке звучал именно голос их родственника. Чтобы не попадаться на такую «удочку», нужно понимать возможности современных речевых технологий.
— Financial Times составила карту сноса и изменения фасадов мечетей в Китае: 2312 из 4450 объектов исламской архитектуры модифицированы или разрушены в период с 2018 по 2023 годы. Арабские элементы мечетей, такие как купола и минареты, демонтируют или закрывают элементами традиционного китайского дизайна. Организация Human Rights Watch называет эту тенденцию «систематическими действиями по ограничению практики ислама в Китае».
— Агентство Bloomberg проанализировало данные о питании в Индии, собранные медицинским журналом Lancet, Euromonitor International и глобальной программой пищевых исследований Университета Северной Каролины. В стране на фоне растущей проблемы голода — пик розничных продаж сухих завтраков, чипсов и сладостей, так называемых «дешевых калорий». Данные показывают, что в результате Индия демонстрирует самый высокий в мире ежегодный рост детского ожирения, а среди взрослых избыточный вес имеет каждый четвертый. Производители упакованных продуктов с сомнительным составом пользуются ситуацией и выходят на индийский рынок.
— Британское медиа о поп-культуре The Pudding визуализировало изменение топ-25 самых популярных музыкальных жанров в мире с 2016 по 2023 годы на основании ежедневной статистики Spotify. Авторы называют ее «антропологической золотой жилой для музыковедов». За эти восемь лет появились новые жанры, например urban latino, k-pop (самый быстрорастущий жанр) и permanent wave, а хип-хоп и альтернативный рок, наоборот, вышли из топа. Также выросла популярность песен на испанском, корейском и хинди. Доля слушателей Spotify из Европы и Северной Америки уменьшилась с 74% в 2016 году до 49% в 2023 году, а доля слушателей из Азии и Латинской Америки выросла с 26% до 51%.