Сбор голосовых данных в автомобиле

Практический пример: Сбор ключевых фраз для автомобильных систем голосового управления

Сборник ключевых фраз

В автомобильной промышленности растет спрос на автомобильные системы с голосовым управлением, что меняет наше представление о том, как мы взаимодействуем с нашими мобильными транспортными средствами.

Автомобильная промышленность быстро внедрила системы с голосовым управлением, а такие крупные игроки, как Ford, Tesla и BMW, интегрировали в свои автомобили расширенное распознавание голоса. По оценкам, к 2022 году более 50% новых автомобилей будут оснащены функциями распознавания голоса. Эти интеграции направлены на повышение безопасности, позволяя водителям управлять функциями навигации, развлечений и связи, не отвлекаясь.

По прогнозам, рыночная стоимость распознавания голоса в автомобилях к 1 году превысит 2023 миллиард долларов, что указывает на растущий спрос на интеллектуальные взаимодействия в автомобиле без помощи рук.

Автомобильная

Исследования показывают, что к 2022 году 73% Большинство водителей будут использовать встроенного в автомобиль голосового помощника.

Рынок автомобильных систем распознавания голоса оценивался в долларах США. 2.01 млрд в 2021 году и, как ожидается, достигнет доллара США. 3.51 млрд к 2027 году, демонстрируя среднегодовой темп роста около 8.07%.

Реальное решение мира

Данные, лежащие в основе систем с голосовым управлением

Голосовые системы в автомобилях повышают безопасность и удобство. Они позволяют водителям получать доступ к навигации, совершать звонки, отправлять текстовые сообщения и управлять музыкой, не отрывая рук от руля и не отрывая глаз от дороги. Реагируя на словесные команды, эти системы уменьшают отвлечение, способствуют многозадачности и обеспечивают постоянную концентрацию на вождении. 

Клиент является мировым лидером в области разговорного интеллекта, который предлагает решения для голосового ИИ, которые позволяют компаниям предлагать своим клиентам невероятные возможности общения. Они работали с ведущими автомобильными компаниями над обучением своих голосовых систем ключевым фразам бренда и нуждались в опыте Шаипа в сборе аудиоданных.

Реальное решение
Задачи

Задачи

  • Краудсорсинг: Наберите 2800+ носителей языка по всему миру.
  • Сбор данных: Защитите 200 12+ подсказок на XNUMX языках в установленные сроки.
  • Распознавание контекста и намерений: Чтобы правильно понимать запросы пользователей, системы нужно было обучать на разных вариантах одной и той же ключевой фразы.
  • Обработка фонового шума: Устранение реального фонового шума для повышения точности модели машинного обучения.
  • Уменьшение смещения: Получите образцы голоса из разных демографических групп, чтобы обеспечить инклюзивность.
  • Характеристики аудио: 16 кГц 16 бит PCM, моно, одноканальный, WAV; без обработки.
  • Среда записи: Записи должны иметь чистый звук без фонового шума или помех. Ключевые фразы должны быть записаны с использованием обычной речи.
  • Проверка качества:  Все записи речи будут проходить оценку качества и проверку, будут доставлены только проверенные записи речи. Если Shaip не соответствует согласованным стандартам качества, Shaip повторно предоставит данные без дополнительных затрат.

Решение

Shaip с его опытом в области разговорного ИИ позволил клиенту:

  • Сбор данных: 208 12 ключевых фраз/бренд-подсказок, собранных на 2800 языках мира от XNUMX носителей в оговоренные сроки.
  • Разные акценты и диалекты: Набраны специалисты со всего мира, владеющие нужными акцентами и диалектами.
  • Распознавание контекста и намерений: Каждому выступающему было поручено записать ключевые фразы в 20 различных вариациях, что позволило моделям машинного обучения точно понять запросы пользователей с точки зрения контекста и намерений.
  • Обработка фонового шума: Чтобы обеспечить первозданное качество звука, мы позаботились о том, чтобы ключевые фразы были записаны в спокойной обстановке с уровнем шума ниже 40 дБ, без фоновых помех, таких как телевизор, радио, музыка, речь или уличные звуки.
  • Уменьшение смещения: Чтобы свести к минимуму предвзятость, мы привлекли людей из разных регионов и сохранили сбалансированное демографическое представление: 50% мужчин и 50% женщин в возрастных группах от 18 до 60 лет.
  • Рекомендации по записи: Ключевые фразы были захвачены в последовательном, нормальном речевом образце, без каких-либо вариаций, таких как быстрый или медленный темп. 2-секундная тишина в начале и в конце, чтобы гарантировать, что ни одна часть речи не будет случайно обрезана.
  • Форма записи: Звук был записан с частотой 16 кГц, 16-бит PCM в моно, с использованием одного канала и сохранен в формате файла WAV. Звук остается необработанным, то есть не применялись компрессия, реверберация или эквалайзер.
  • Качество: Каждая запись речи подвергалась тщательной проверке качества и проверке. Были доставлены только записи, прошедшие эту оценку. Любые файлы, которые не соответствовали согласованным стандартам качества, были перезаписаны и предоставлены без дополнительной оплаты.
Решение
Результат

Результат

Высококачественные звуковые данные ключевых фраз бренда или голосовые подсказки позволят автомобильным компаниям и их клиентам:

  1. Брендинг и айдентика: Голосовые подсказки с определенной фразой бренда помогают компаниям создать прямую и запоминающуюся связь между пользователем и брендом, что повышает запоминаемость бренда.
  2. Простота в использовании: Голосовые команды облегчают водителям взаимодействие с транспортным средством, не отрывая рук от руля и не отрывая глаз от дороги, тем самым повышая безопасность дорожного движения.
  3. Функциональность: Голосовые команды делают доступ к функциям автомобиля и управление ими более интуитивным. Будь то навигация, воспроизведение мультимедиа или климат-контроль.
  4. Интеграция с другими системами: Многие системы с голосовым управлением интегрированы со смартфонами, устройствами «умный дом» и другими устройствами IoT. Например, пользователь может попросить свою машину включить свет дома, когда он приближается к дому.
  5. Конкурентное преимущество: Предложение передовых систем с голосовым управлением может быть преимуществом и отличительной чертой. Покупатели обращают внимание на новейшие технологии при рассмотрении вопроса о покупке нового автомобиля.
  6. Будущее: По мере развития технологий и все большей интеграции Интернета вещей в повседневную жизнь наличие надежной системы с голосовым управлением позволяет автомобильным компаниям лучше адаптироваться к будущим технологиям.
  7. Возможности получения дохода: Дополнительные возможности монетизации, т. е. голосовые системы предлагают рекомендации или интегрированные возможности электронной коммерции (например, заказ еды или поиск ближайших услуг), которые могут обеспечить партнерский доход.
Цитата значок

Когда мы начали заниматься подбором голосовых подсказок для автомобильного сектора, перед нами встало множество задач. Запись разнообразной речи, акцентов и интонаций была жизненно важна для представления глобальной клиентуры нашего клиента. Компания Shaip выделялась не просто как поставщик, а как настоящий партнер. Их стремление обеспечить разнообразный набор голосов из разных регионов заслуживает похвалы. Они не просто собирали голоса; они понимали нюансы потребностей нашего проекта, гарантируя высококачественные записи. Их безупречное соблюдение стандартов сбора аудиоматериалов продемонстрировало их профессионализм и преданность проекту.

★ ★ ★ ★ ★
Цитата значок

Ускорьте разработку приложений на основе разговорного ИИ на 100%.