Автоматическое распознавание речи

Что такое технология преобразования речи в текст и как она работает в автоматическом распознавании речи

Автоматическое распознавание речи (ASR) прошло долгий путь. Хотя он был изобретен давно, он почти никогда не использовался. Однако время и технологии сейчас существенно изменились. Аудиотранскрипция претерпела значительные изменения.

Такие технологии, как ИИ (искусственный интеллект), привели в действие процесс преобразования аудио в текст для получения быстрых и точных результатов. В результате его приложения в реальном мире также увеличились, а некоторые популярные приложения, такие как Tik Tok, Spotify и Zoom, встраивают этот процесс в свои мобильные приложения.

Итак, давайте рассмотрим ASR и узнаем, почему это одна из самых популярных технологий в 2022 году.

Что такое речь для текста?

Перевод речи в текст (STT), также называемый автоматическим распознаванием речи (ASR), преобразует устную речь в письменный текст. Современные системы представляют собой программные сервисы, которые анализируют аудиосигналы и выводят слова с временными метками и оценками достоверности.

Для команд, разрабатывающих UX для контакт-центров, здравоохранения и голосовых сервисов, STT — это шлюз к диалогам с возможностью поиска и анализа, вспомогательным субтитрам и последующим функциям искусственного интеллекта, таким как реферирование или контроль качества.

Общие названия преобразования речи в текст

Эта передовая технология распознавания речи также популярна и называется по именам:

  • Автоматическое распознавание речи (ASR)
  • Распознавание речи
  • Компьютерное распознавание речи
  • Аудио транскрипция
  • Чтение экрана

Применение технологии преобразования речи в текст

Контакт-центры

Расшифровки в режиме реального времени обеспечивают поддержку операторам в режиме реального времени; пакетные расшифровки способствуют контролю качества, аудиту соответствия и созданию архивов вызовов с возможностью поиска.

Пример: используйте потоковую передачу ASR для отображения подсказок в режиме реального времени во время спора по выставлению счетов, а затем запускайте пакетную транскрипцию после звонка для оценки качества и автоматического создания сводки.

Здравоохранение

Врачи диктуют заметки и получают сводки посещений; расшифровки поддерживают кодирование (CPT/ICD) и клиническую документацию — всегда с защитой закрытой медицинской информации.

Пример: Поставщик услуг записывает консультацию, запускает ASR для составления заметки SOAP и автоматически выделяет названия препаратов и основные показатели для проверки кодировщиком с применением редактирования закрытой медицинской информации.

СМИ и образование

Создавайте титры/субтитры для лекций, вебинаров и трансляций; добавляйте легкое редактирование вручную, когда вам нужна почти идеальная точность.

Пример: Университет пакетно транскрибирует видеолекции, затем рецензент исправляет имена и жаргон перед публикацией доступных субтитров.

Голосовые продукты и IVR

Распознавание ключевого слова и команд обеспечивает возможность использования пользовательского интерфейса без помощи рук в приложениях, киосках, транспортных средствах и смарт-устройствах; система интерактивного речевого ответа (IVR) использует расшифровки для маршрутизации и решения задач.

Пример: банковский интерактивный речевой интерактивный ...

Операции и знания

Встречи и выездные вызовы становятся доступны для поиска в виде текста с временными метками, спикерами и планами действий для коучинга и аналитики.

Пример: звонки по продажам расшифровываются, маркируются по темам (ценообразование, возражения) и суммируются; менеджеры фильтруют по «риску продления» для планирования последующих действий.

Почему стоит использовать преобразование речи в текст?

  • Сделайте разговоры доступными для обнаружения. Превратите часы аудиозаписей в текст с возможностью поиска для аудита, обучения и анализа потребностей клиентов. 
  • Автоматизировать ручную транскрипцию. Сократите время выполнения и затраты по сравнению с рабочими процессами, в которых задействован только человек, сохраняя при этом человеческий фактор там, где качество должно быть безупречным. 
  • Мощность нисходящего ИИ. Резюмирование транскриптов, извлечение намерений/тем, флаги соответствия и коучинг. 
  • Улучшить доступностьСубтитры и расшифровки помогают пользователям с потерей слуха и улучшают восприятие контента в шумной обстановке. 
  • Поддержка решений в реальном времени. Потоковая передача данных по протоколу ASR обеспечивает руководство по вызову, формы в реальном времени и мониторинг в режиме реального времени. 

Преимущества технологии преобразования речи в текст

Гибкость скорости и режима

Потоковая передача данных позволяет использовать фрагменты длительностью менее секунды для живого использования; пакетная передача данных позволяет справиться с задержками благодаря более глубокой постобработке.

Пример: Потоковая транскрипция для помощи агенту; пакетная перетранскрипция позже для архивов качества QA.

Встроенные качественные функции

Используйте диаризацию, пунктуацию/регистр, временные метки и подсказки по фразам/пользовательский словарь для работы с жаргоном.

Пример: Подпишите обращения «врач/пациент» и укажите названия лекарств, чтобы они правильно транскрибировались.

Выбор развертывания

Используйте облачные API для масштабирования/обновлений или локальные/периферийные контейнеры для размещения данных и низкой задержки.

Пример: Больница использует ASR в своем центре обработки данных для хранения закрытой медицинской информации локально.

Настройка и многоязычность

Устраните пробелы в точности с помощью списков фраз и адаптации домена; поддерживайте несколько языков и переключение кодов.

Пример: Финтех-приложение продвигает названия брендов и тикеры на английском/хинглише, а затем настраивает их на узкоспециализированные термины.

Понимание работы автоматического распознавания речи

Рабочий процесс распознавания речи

Работа программного обеспечения для перевода аудио в текст сложна и включает в себя выполнение нескольких шагов. Как мы знаем, преобразование речи в текст — это эксклюзивное программное обеспечение, предназначенное для преобразования аудиофайлов в редактируемый текстовый формат; он делает это, используя распознавание голоса.

Разработка

  • Первоначально с помощью аналого-цифрового преобразователя компьютерная программа применяет к предоставленным данным лингвистические алгоритмы, чтобы отличать вибрации от звуковых сигналов.
  • Затем соответствующие звуки фильтруются путем измерения звуковых волн.
  • Кроме того, звуки распределяются/сегментируются на сотые или тысячные доли секунды и сопоставляются с фонемами (измеримой единицей звука, позволяющей отличить одно слово от другого).
  • Затем фонемы проходят через математическую модель для сравнения существующих данных с хорошо известными словами, предложениями и фразами.
  • Результатом является текстовый или компьютерный аудиофайл.

[Также Читайте: Всесторонний обзор автоматического распознавания речи]

Каковы виды использования речи в текст?

Существует несколько вариантов использования программного обеспечения для автоматического распознавания речи, например

  • Поиск контента: Большинство из нас перешли от набора букв на телефонах к нажатию кнопки, чтобы программное обеспечение распознавало наш голос и предоставляло желаемые результаты.
  • Обслуживание клиентов: Чат-боты и помощники с искусственным интеллектом, которые могут провести клиентов через несколько начальных шагов процесса, стали обычным явлением.
  • Скрытые субтитры в реальном времени: С расширением глобального доступа к контенту скрытые субтитры в режиме реального времени стали заметным и значительным рынком, продвигая ASR вперед для его использования.
  • Электронная документация: Несколько административных отделов начали использовать ASR для выполнения задач документирования, обеспечивая более высокую скорость и эффективность.

Каковы основные проблемы распознавания речи?

Акценты и диалектыОдно и то же слово может звучать совершенно по-разному в разных регионах, что сбивает с толку модели, обученные на «стандартной» речи. Решение простое: соберите и протестируйте аудиозаписи с акцентом, а также добавьте подсказки по фразам и произношению для названий брендов, мест и людей.

Контекст и омофоны. Выбор правильного слова («to/too/two») требует знания контекста и предметной области. Используйте более точные языковые модели, адаптируйте их к тексту вашей предметной области и проверяйте критически важные сущности, такие как названия лекарств или артикулы.

Шум и плохие аудиоканалы. Транспортные помехи, перекрёстные помехи, кодеки вызовов и микрофоны дальнего радиуса действия заглушают важные звуки. Устраняйте шум и нормализуйте аудио, используйте обнаружение голосовой активности, имитируйте реальный шум/кодеки во время обучения и по возможности отдавайте предпочтение лучшим микрофонам.

Переключение кодов и многоязычная речь. Люди часто смешивают языки или переходят с одного языка на другой в середине предложения, что нарушает одноязычные модели. Выбирайте многоязычные или модели с поддержкой переключения кодов, оценивайте аудиозаписи на разных языках и ведите списки фраз, учитывающие особенности локали.

Несколько говорящих и перекрытие. Когда голоса накладываются друг на друга, в расшифровках размывается понимание того, «кто что сказал». Включите диаризацию говорящих, чтобы обозначить повороты, и используйте разделение/формирование луча, если доступен многомикрофонный звук.

Видео-подсказки в записях. В видео движения губ и текст на экране добавляют смысл, который может быть упущен из виду при использовании одного лишь звука. Там, где качество имеет значение, используйте аудиовизуальные модели и сочетайте ASR с OCR для распознавания названий слайдов, имён и терминов.

Качество аннотаций и маркировкиНепоследовательность в расшифровках, неправильные теги докладчиков или неаккуратная пунктуация негативно влияют как на обучение, так и на оценку. Разработайте чёткое руководство по стилю, регулярно проверяйте примеры и подготовьте небольшой золотой набор для оценки единообразия аннотаторов.

Конфиденциальность и соответствие требованиям. Звонки и клинические записи могут содержать персональные данные (PII/PHI), поэтому хранение и доступ к ним должны строго контролироваться. Редактируйте или деидентифицируйте выходные данные, ограничивайте доступ и выбирайте облачные, а не локальные/периферийные развертывания в соответствии с вашей политикой.

Как выбрать лучшего поставщика услуг преобразования речи в текст

Выбирайте поставщика, протестировав аудио (акценты, устройства, шум) и сопоставив точность с конфиденциальностью, задержкой и стоимостью. Начните с малого, измеряйте, затем масштабируйте.

Сначала определите потребности

  • Варианты использования: потоковая передача, пакетная обработка или и то, и другое
  • Языки/акценты (включая переключение кодов)
  • Аудиоканалы: телефон (8 кГц), приложение/настольный компьютер, дальнее поле
  • Конфиденциальность/местоположение: PII/PHI, регион, хранение, аудит
  • Ограничения: целевая задержка, SLA, бюджет, облако или локально/периферийное решение

Оцените свой аудиофайл

  • Точность: WER + точность сущностей (жаргон, имена, коды)
  • Многоговорящий: качество дневника (кто говорил, когда)
  • Форматирование: знаки препинания, регистр, числа/даты
  • Потоковая передача: задержка TTFT/TTF + стабильность
  • Функции: списки фраз, пользовательские модели, редактирование, временные метки

Спросите в запросе предложений

  • Показать необработанные результаты на нашем тестовом наборе (по акценту/шуму)
  • Обеспечить задержку потоковой передачи p50/p95 для наших клипов
  • Точность диаризации для 2–3 говорящих с перекрытием
  • Обработка данных: внутрирегиональная обработка, хранение, журналы доступа
  • Путь из списков фраз → пользовательская модель (данные, время, стоимость)

Следите за красными флагами

  • Отличная демоверсия, слабые результаты на вашем аудио
  • «Мы исправим это с помощью тонкой настройки», но нет плана/данных
  • Скрытые сборы за ведение дневника/редактирование/хранение

[Также Читайте: Понимание процесса сбора аудиоданных для автоматического распознавания речи]

Будущее технологии преобразования речи в текст

Более крупные многоязычные «фундаментальные» модели. Ожидается, что отдельные модели будут охватывать более 100 языков с более высокой точностью при низком уровне ресурсов благодаря масштабному предварительному обучению и легкой тонкой настройке.

Речь + перевод в одном стеке. Унифицированные модели будут обрабатывать ASR, перевод речи в текст и даже преобразование речи в речь, сокращая задержку и объем связующего кода.

Более интеллектуальное форматирование и диаризация по умолчанию. Автоматическая пунктуация, регистр, цифры и надежная маркировка «кто и когда говорил» будут все чаще встраиваться как в пакетную, так и в потоковую передачу.

Аудиовизуальное распознавание для сложных условий. Губные сигналы и текст на экране (OCR) улучшат качество расшифровки при наличии шума в аудио — это уже активно развивающаяся область исследований и первые прототипы продуктов.

Обучение, ориентированное на конфиденциальность, и на устройстве/на периферии. Федеративное обучение и контейнеризированные развертывания позволят сохранить локальность данных и одновременно улучшить модели, что важно для регулируемых секторов.

ИИ, учитывающий регулирование. Сроки выполнения Закона ЕС об искусственном интеллекте означают большую прозрачность, контроль рисков и документацию, интегрированную в продукты и закупки STT.

Более расширенная оценка за пределами WER. Команды будут стандартизировать точность сущностей, качество диаризации, задержку (TTFT/TTF) и справедливость по акцентам/устройствам, а не только по заголовку WER.

Как Shaip поможет вам этого добиться

По мере того, как эти тенденции наступают, успех по-прежнему зависит от ваши данныеShaip предоставляет многоязычные наборы данных с большим количеством акцентов, безопасную для PHI деидентификацию и наборы «золотых» тестов (WER, сущность, диаризация, задержка) для объективного сравнения поставщиков и настройки моделей, чтобы вы могли с уверенностью принять будущее STT. Поговорите с экспертами Shaip по данным ASR спланировать быстрый пилотный проект.

Социальная Поделиться