Аудио коллекция ключевых фраз/подсказок

Практический пример: Коллекция ключевых фраз для автомобильных систем с голосовым управлением

Сборник ключевых фраз

В автомобильной промышленности растет спрос на автомобильные системы с голосовым управлением, что меняет наше представление о том, как мы взаимодействуем с нашими мобильными транспортными средствами.

Автомобильная промышленность быстро внедрила системы с голосовым управлением, а такие крупные игроки, как Ford, Tesla и BMW, интегрировали в свои автомобили расширенное распознавание голоса. По оценкам, к 2022 году более 50% новых автомобилей будут оснащены функциями распознавания голоса. Эти интеграции направлены на повышение безопасности, позволяя водителям управлять функциями навигации, развлечений и связи, не отвлекаясь.

По прогнозам, рыночная стоимость распознавания голоса в автомобилях к 1 году превысит 2023 миллиард долларов, что указывает на растущий спрос на интеллектуальные взаимодействия в автомобиле без помощи рук.

Автомобильная

Исследования показывают, что к 2022 году 73% водителей будут пользоваться голосовым помощником в автомобиле.

Рынок автомобильных систем распознавания голоса оценивался в 2.01 млрд долларов США в 2021 году и, как ожидается, достигнет 3.51 млрд долларов США к 2027 году, при среднегодовом темпе роста около 8.07%.

Реальное решение мира

Данные, лежащие в основе систем с голосовым управлением

Голосовые системы в автомобилях повышают безопасность и удобство. Они позволяют водителям получать доступ к навигации, совершать звонки, отправлять текстовые сообщения и управлять музыкой, не отрывая рук от руля и не отрывая глаз от дороги. Реагируя на словесные команды, эти системы уменьшают отвлечение, способствуют многозадачности и обеспечивают постоянную концентрацию на вождении. 

Клиент является мировым лидером в области разговорного интеллекта, который предлагает решения для голосового ИИ, которые позволяют компаниям предлагать своим клиентам невероятные возможности общения. Они работали с ведущими автомобильными компаниями над обучением своих голосовых систем ключевым фразам бренда и нуждались в опыте Шаипа в сборе аудиоданных.

Реальное решение
Вызовы

Вызовы

  • Краудсорсинг: Наберите 2800+ носителей языка по всему миру.
  • Сбор данных: Защитите 200 12+ подсказок на XNUMX языках в установленные сроки.
  • Распознавание контекста и намерений: Чтобы правильно понимать запросы пользователей, системы нужно было обучать на разных вариантах одной и той же ключевой фразы.
  • Обработка фонового шума: Устранение реального фонового шума для повышения точности модели машинного обучения.
  • Уменьшение смещения: Получите образцы голоса из разных демографических групп, чтобы обеспечить инклюзивность.
  • Характеристики аудио: 16 кГц 16 бит PCM, моно, одноканальный, WAV; без обработки.
  • Среда записи: Записи должны иметь чистый звук без фонового шума или помех. Ключевые фразы должны быть записаны с использованием обычной речи.
  • Проверка качества:  Все записи речи будут проходить оценку качества и проверку, будут доставлены только проверенные записи речи. Если Shaip не соответствует согласованным стандартам качества, Shaip повторно предоставит данные без дополнительных затрат.

Решения

Shaip с его опытом в области разговорного ИИ позволил клиенту:

  • Сбор данных: 208 12 ключевых фраз/бренд-подсказок, собранных на 2800 языках мира от XNUMX носителей в оговоренные сроки.
  • Разные акценты и диалекты: Набраны специалисты со всего мира, владеющие нужными акцентами и диалектами.
  • Распознавание контекста и намерений: Каждому выступающему было поручено записать ключевые фразы в 20 различных вариациях, что позволило моделям машинного обучения точно понять запросы пользователей с точки зрения контекста и намерений.
  • Обработка фонового шума: Чтобы обеспечить первозданное качество звука, мы позаботились о том, чтобы ключевые фразы были записаны в спокойной обстановке с уровнем шума ниже 40 дБ, без фоновых помех, таких как телевизор, радио, музыка, речь или уличные звуки.
  • Уменьшение смещения: Чтобы свести к минимуму предвзятость, мы привлекли людей из разных регионов и сохранили сбалансированное демографическое представление: 50% мужчин и 50% женщин в возрастных группах от 18 до 60 лет.
  • Рекомендации по записи: Ключевые фразы были захвачены в последовательном, нормальном речевом образце, без каких-либо вариаций, таких как быстрый или медленный темп. 2-секундная тишина в начале и в конце, чтобы гарантировать, что ни одна часть речи не будет случайно обрезана.
  • Форма записи: Звук был записан с частотой 16 кГц, 16-бит PCM в моно, с использованием одного канала и сохранен в формате файла WAV. Звук остается необработанным, то есть не применялись компрессия, реверберация или эквалайзер.
  • Качество: Каждая запись речи подвергалась тщательной проверке качества и проверке. Были доставлены только записи, прошедшие эту оценку. Любые файлы, которые не соответствовали согласованным стандартам качества, были перезаписаны и предоставлены без дополнительной оплаты.
Решения
Результат

Результат

Высококачественные звуковые данные ключевых фраз бренда или голосовые подсказки позволят автомобильным компаниям и их клиентам:

  1. Брендинг и айдентика: Голосовые подсказки с определенной фразой бренда помогают компаниям создать прямую и запоминающуюся связь между пользователем и брендом, что повышает запоминаемость бренда.
  2. Простота в использовании: Голосовые команды облегчают водителям взаимодействие с транспортным средством, не отрывая рук от руля и не отрывая глаз от дороги, тем самым повышая безопасность дорожного движения.
  3. Функциональность: Голосовые команды делают доступ к функциям автомобиля и управление ими более интуитивным. Будь то навигация, воспроизведение мультимедиа или климат-контроль.
  4. Интеграция с другими системами: Многие системы с голосовым управлением интегрированы со смартфонами, устройствами «умный дом» и другими устройствами IoT. Например, пользователь может попросить свою машину включить свет дома, когда он приближается к дому.
  5. Конкурентное преимущество: Предложение передовых систем с голосовым управлением может быть преимуществом и отличительной чертой. Покупатели обращают внимание на новейшие технологии при рассмотрении вопроса о покупке нового автомобиля.
  6. Будущее: По мере развития технологий и все большей интеграции Интернета вещей в повседневную жизнь наличие надежной системы с голосовым управлением позволяет автомобильным компаниям лучше адаптироваться к будущим технологиям.
  7. Возможности получения дохода: Дополнительные возможности монетизации, т. е. голосовые системы предлагают рекомендации или интегрированные возможности электронной коммерции (например, заказ еды или поиск ближайших услуг), которые могут обеспечить партнерский доход.
Золотой-5-звездочный

Когда мы начали искать голосовые подсказки для автомобильного сектора, нам пришлось столкнуться с многочисленными проблемами. Запечатлеть разнообразие речи, акцентов и тонов было жизненно важно, чтобы представить глобальную клиентуру нашего клиента. Shaip выделялся не только как продавец, но и как настоящий партнер. Их приверженность обеспечению разнообразия голосов из разных регионов заслуживает похвалы. Они вышли за рамки простого сбора голосов; они уловили нюансы потребностей нашего проекта, гарантируя первоклассные записи. Их безупречное соблюдение стандартов аудиоколлекции продемонстрировало их профессионализм и преданность проекту.

Ускорьте свой разговорный ИИ
разработка приложений на 100%