Если вы разрабатываете голосовые интерфейсы, системы транскрипции или мультимодальные агенты, пределом вашей модели являются ваши данные. В распознавании речи (ASR) это означает сбор разнообразных, хорошо размеченных аудиоданных, отражающих реальных пользователей, устройства и среду, и их тщательную оценку.
В этом руководстве показано, как именно планировать, собирать, сортировать и оценивать данные по обучению речи, чтобы вы могли быстрее поставлять надежную продукцию.
Что считается «данными распознавания речи»?
Как минимум: аудио + текст. На практике высокопроизводительным системам также необходимы подробные метаданные (демографические данные говорящего, местоположение, устройство, акустические условия), артефакты аннотаций (временные метки, диаризация, нелексические события, такие как смех) и оценочные разбиения с надежным покрытием.
Pro наконечником: Когда вы говорите «набор данных», укажите задачу (диктовка, команды или разговорный ASR), предметную область (звонки в службу поддержки, медицинские записи, команды в автомобиле) и ограничения (задержка, на устройстве или в облаке). Это меняет всё: от частоты дискретизации до схемы аннотаций.
Спектр речевых данных (выберите то, что соответствует вашему варианту использования)

1. Сценарий речи (высокий уровень контроля)
Спикеры зачитывают подсказки дословно. Отлично подходит для команд и управления, слов-побудок или фонетического разбора. Быстро масштабируется; меньше естественных вариаций.
2. Сценарная речь (полуконтролируемая)
Спикеры разыгрывают подсказки в рамках сценария («запишитесь в клинику на приём по поводу глаукомы»). Вы получаете разнообразные фразы, не отвлекаясь от задания — идеально для охвата определённой лексики.
3. Естественная/незаписанная речь (низкий уровень контроля)
Реальные разговоры или свободные монологи. Необходимы для случаев использования с несколькими говорящими, длинных или шумных записей. Сложнее очищать, но критически важно для надежности. Этот спектр был представлен в оригинальной статье; здесь мы подчёркиваем важность соответствия спектра продукту, чтобы избежать переобучения или недообучения.
Планируйте свой набор данных как продукт
Определите успех и ограничения заранее
- Основная метрика: WER (коэффициент ошибок в словах) для большинства языков; CER (коэффициент ошибок в символах) для языков без четких границ слов.
- Задержка и объём: Будете ли вы запускать приложение на устройстве? Это влияет на частоту дискретизации, модель и сжатие.
- Конфиденциальность и соответствие требованиям: если вы работаете с PHI/PII (например, в сфере здравоохранения), обеспечьте согласие, деидентификацию и возможность аудита.
Сопоставьте фактическое использование со спецификациями данных
- Локали и акценты: например, en-US, en-IN, en-GB; баланс между городским/сельским и многоязычным переключением кодов.
- Окружающая среда: офис, улица, автомобиль, кухня; целевые значения SNR; реверберация против микрофонов для близкого разговора.
- Устройства: умные колонки, мобильные телефоны (Android/iOS), гарнитуры, автомобильные комплекты, стационарные телефоны.
- Политика в отношении контента: ненормативная лексика, деликатные темы, подсказки для людей с ограниченными возможностями (заикание, дизартрия) там, где это уместно и разрешено.
Сколько данных вам нужно?
Единого числа нет, но охват важнее, чем просто часы. Отдавайте предпочтение широте спектра выступающих, устройств и акустики, а не сверхдлинным фрагментам от нескольких участников. Для управления и контроля тысячи высказываний сотен выступающих часто лучше меньшего количества более длинных записей. Для разговорного ASR инвестируйте в часы × разнообразие плюс тщательное аннотирование.
Текущий ландшафт: Модели с открытым исходным кодом (например, Whisper), обученные на протяжении сотен тысяч часов, задают надежную основу; адаптация домена, акцента и шума к вашим данным по-прежнему является тем, что влияет на производственные показатели.
Коллекция: пошаговый рабочий процесс

1. Начните с реального намерения пользователя
Анализируйте журналы поиска, запросы в службу поддержки, расшифровки IVR, журналы чатов и аналитику продуктов для составления подсказок и сценариев. Вы сможете учитывать долгосрочные намерения, которые иначе могли бы быть упущены.
2. Составляйте черновики подсказок и сценариев с учетом вариативности
- Напишите минимальные пары («включить свет в гостиной» vs. «включить…»).
- Нарушения речевой деятельности («э-э, вы можете…») и переключение кодов, если это уместно.
- Ограничьте сеансы чтения примерно 15 минутами, чтобы избежать утомления; делайте интервалы в 2–3 секунды между строками для четкой сегментации (в соответствии с вашими первоначальными рекомендациями).
3. Привлекайте подходящих спикеров
Обеспечьте демографическое разнообразие в соответствии с целями рынка и справедливости. Документируйте право на участие, квоты и согласие. Обеспечьте справедливую компенсацию.
4. Запись в реалистичных условиях
Соберите матрицу: динамики × устройства × окружение.
Например:
- Устройства: iPhone среднего уровня, Android низкого уровня, умная колонка с микрофоном дальнего радиуса действия.
- Среды: тихая комната (ближнее поле), кухня (бытовая техника), автомобиль (шоссе), улица (транспортное движение).
- Форматы: Для ASR обычно используется PCM с частотой 16 кГц/16 бит; при понижении частоты дискретизации рассмотрите более высокие значения.
5. Вызвать изменчивость (намеренно)
Поощряйте естественный темп, самостоятельные исправления и прерывания. Не переусердствуйте с данными, основанными на сценариях и естественными данными; вам нужна та же путаница, которую создают ваши клиенты.
6. Транскрибируйте с помощью гибридного конвейера
- Автоматическая расшифровка с использованием надежной базовой модели (например, Whisper или вашей собственной).
- Человеческий контроль качества для исправлений, ведения дневника и событий (смех, слова-паразиты).
- Проверки согласованности: орфографические словари, доменные лексиконы, политика пунктуации.
7. Разделяйте хорошо, проверяйте честно
- Обучение/разработка/тестирование с учетом несвязности говорящего и сценария (избегайте утечек).
- Имейте реальный набор слепых устройств, отражающий производственный шум и устройства; не трогайте его во время итерации.
Аннотация: Сделайте этикетки своим рвом
Определите четкую схему
- Лексические правила: числа («двадцать пять» vs. «25»), аббревиатуры, пунктуация.
- События: [смех], [перекрёстные помехи], [неразборчиво: 00:03.2–00:03.7].
- Диаризация: метки говорящих A/B или отслеживаемые идентификаторы, где это разрешено.
- Временные метки: на уровне слова или фразы, если вы поддерживаете поиск, субтитры или выравнивание.
Обучайте аннотаторов; измеряйте их
Используйте «золотые» задачи и межаннотаторское соглашение (IAA). Отслеживайте точность/полноту критических токенов (названия продуктов, лекарственных средств) и время выполнения. Многопроходный контроль качества (экспертная оценка → проверка ведущими специалистами) окупается в дальнейшем для обеспечения стабильности оценки модели.
Управление качеством: не отправляйте свое озеро данных впустую
- Автоматизированные экраны: отсечение, коэффициент отсечения, границы SNR, длинные паузы, несоответствия кодеков.
- Человеческий аудит: случайные выборки по среде и устройству; выборочная проверка дневника и пунктуации.
- Управление версиями: относитесь к наборам данных как к коду — семестр, журналы изменений и неизменяемые тестовые наборы.
Оценка вашего ASR: за пределами одного WER
Измерьте WER в целом и по срезам:
- По среде: тишина против машины против улицы
- По устройству: Android низкого уровня против iPhone
- По акценту/региону: en-IN против en-US
- По доменным терминам: названия продуктов, лекарства, адреса
Отслеживайте задержку, поведение частичных кодов и конечные точки, если вы используете пользовательский интерфейс в реальном времени. Для мониторинга моделей исследования оценки WER и обнаружения ошибок могут помочь приоритизировать проверку вручную без необходимости расшифровки всего кода.
Создание или покупка (или и то, и другое): источники данных, которые можно объединить

1. Готовые каталоги
Полезно для начальной загрузки и предварительной подготовки, особенно для быстрого охвата языков или многообразия носителей.
2. Сбор индивидуальных данных
Если требования к домену, акустике или локали специфичны, индивидуальный подход — это способ достичь целевого WER. Вы контролируете запросы, квоты, устройства и контроль качества.
3. Открытые данные (осторожно)
Отлично подходит для экспериментов: обеспечьте совместимость лицензий, безопасность персональных данных и осведомленность о смене дистрибуции относительно ваших пользователей.
Безопасность, конфиденциальность и соответствие требованиям
- Явное согласие и прозрачные условия для участников
- Деидентификация/анонимизация при необходимости
- Геоизолированное хранение и контроль доступа
- Аудиторские журналы для регулирующих органов или корпоративных клиентов
Реальные приложения (обновлено)
- Голосовой поиск и обнаружение: Растущая база пользователей; внедрение зависит от рынка и варианта использования.
- Умный дом и устройства: Помощники нового поколения поддерживают больше разговорных, многошаговых запросов, повышая планку качества данных для обучения в удаленных, шумных помещениях.
- Служба поддержки: Краткосрочный, доменно-интенсивный ASR с диаризацией и помощью агента.
- Диктовка по здравоохранению: Структурированные словари, сокращения и строгий контроль конфиденциальности.
- Голос в автомобиле: Микрофоны дальнего радиуса действия, шум движения и задержка, критическая для безопасности.
Мини-пример: многоязычные командные данные в большом масштабе
Глобальному OEM-производителю требовались данные о речевых сообщениях (3–30 секунд) на языках первого и второго уровня для реализации команд на устройстве. Команда:
- Разработанные подсказки, охватывающие слова пробуждения, навигацию, медиа и настройки
- Набранные докладчики по регионам с квотами на устройства
- Записанный звук в тихих помещениях и на большом расстоянии
- Предоставляемые метаданные JSON (устройство, SNR, локаль, пол/возраст) и проверенные расшифровки
Результат: готовый к использованию набор данных, обеспечивающий быструю итерацию модели и измеримое сокращение WER для внутридоменных команд.
Распространенные ошибки (и способы их устранения)
- Слишком много часов, недостаточно покрытия: установите квоты для динамика/устройства/среды.
- Дырявая оценка: применение разделений, не связанных между собой по говорящим, и по-настоящему слепого теста.
- Смещение аннотаций: Проводите текущий контроль качества и обновляйте руководства реальными примерами.
- Игнорирование пограничных рынков: добавьте целевые данные для переключения кодов, региональных акцентов и местностей с низким уровнем ресурсов.
- Сюрпризы с задержкой: создавайте профили моделей со звуком на целевых устройствах заранее.
Когда использовать готовые, а когда пользовательские данные
Используйте готовые решения для начальной загрузки или быстрого расширения языкового охвата; переходите на пользовательские, как только WER на вашем домене достигнет плато. Многие команды используют смешанный подход: предварительное обучение/тонкую настройку на основе часов работы с каталогом, а затем адаптируйте с использованием специальных данных, отражающих вашу воронку производства.
Контрольный список: готовы к сбору?
- Вариант использования, показатели успеха, ограничения определены
- Локали, устройства, среды, квоты завершены
- Согласие + политика конфиденциальности задокументированы
- Подготовлены пакеты подсказок (сценарий + сценарий)
- Утверждены правила аннотирования и этапы контроля качества
- Правила разделения обучения/разработки/тестирования (непересекающиеся по говорящему и сценарию)
- План мониторинга дрейфа после запуска
Основные выводы
- Охват важнее часов. Сбалансируйте колонки, устройства и обстановку, прежде чем гоняться за минутами.
- Маркировка качественных соединений. Чёткая схема + многоступенчатый контроль качества превосходят однопроходное редактирование.
- Оцените по срезу. Отслеживайте WER по акценту, устройству и шуму — именно здесь кроется риск продукта.
- Комбинируйте источники данных. Бутстрэппинг с каталогами и индивидуальная адаптация часто дают быструю отдачу.
- Конфиденциальность — это продукт. С самого начала обеспечьте согласие, деидентификацию и возможность аудита.
Как Shaip может вам помочь
Нужны индивидуальные речевые данные? Shaip предоставляет услуги по сбору, аннотированию и транскрибированию, а также готовые наборы данных с готовыми аудиозаписями и транскрипциями на более чем 150 языках/вариантах, тщательно сбалансированные по говорящим, устройствам и условиям.