Аудио коллекция ключевых фраз/подсказок
Практический пример: Коллекция ключевых фраз для автомобильных систем с голосовым управлением
В автомобильной промышленности растет спрос на автомобильные системы с голосовым управлением, что меняет наше представление о том, как мы взаимодействуем с нашими мобильными транспортными средствами.
Автомобильная промышленность быстро внедрила системы с голосовым управлением, а такие крупные игроки, как Ford, Tesla и BMW, интегрировали в свои автомобили расширенное распознавание голоса. По оценкам, к 2022 году более 50% новых автомобилей будут оснащены функциями распознавания голоса. Эти интеграции направлены на повышение безопасности, позволяя водителям управлять функциями навигации, развлечений и связи, не отвлекаясь.
По прогнозам, рыночная стоимость распознавания голоса в автомобилях к 1 году превысит 2023 миллиард долларов, что указывает на растущий спрос на интеллектуальные взаимодействия в автомобиле без помощи рук.
Автомобильная
Исследования показывают, что к 2022 году 73% водителей будут пользоваться голосовым помощником в автомобиле.
Рынок автомобильных систем распознавания голоса оценивался в 2.01 млрд долларов США в 2021 году и, как ожидается, достигнет 3.51 млрд долларов США к 2027 году, при среднегодовом темпе роста около 8.07%.
Реальное решение мира
Данные, лежащие в основе систем с голосовым управлением
Голосовые системы в автомобилях повышают безопасность и удобство. Они позволяют водителям получать доступ к навигации, совершать звонки, отправлять текстовые сообщения и управлять музыкой, не отрывая рук от руля и не отрывая глаз от дороги. Реагируя на словесные команды, эти системы уменьшают отвлечение, способствуют многозадачности и обеспечивают постоянную концентрацию на вождении.
Клиент является мировым лидером в области разговорного интеллекта, который предлагает решения для голосового ИИ, которые позволяют компаниям предлагать своим клиентам невероятные возможности общения. Они работали с ведущими автомобильными компаниями над обучением своих голосовых систем ключевым фразам бренда и нуждались в опыте Шаипа в сборе аудиоданных.
Вызовы
- Краудсорсинг: Наберите 2800+ носителей языка по всему миру.
- Сбор данных: Защитите 200 12+ подсказок на XNUMX языках в установленные сроки.
- Распознавание контекста и намерений: Чтобы правильно понимать запросы пользователей, системы нужно было обучать на разных вариантах одной и той же ключевой фразы.
- Обработка фонового шума: Устранение реального фонового шума для повышения точности модели машинного обучения.
- Уменьшение смещения: Получите образцы голоса из разных демографических групп, чтобы обеспечить инклюзивность.
- Характеристики аудио: 16 кГц 16 бит PCM, моно, одноканальный, WAV; без обработки.
- Среда записи: Записи должны иметь чистый звук без фонового шума или помех. Ключевые фразы должны быть записаны с использованием обычной речи.
- Проверка качества: Все записи речи будут проходить оценку качества и проверку, будут доставлены только проверенные записи речи. Если Shaip не соответствует согласованным стандартам качества, Shaip повторно предоставит данные без дополнительных затрат.
Решения
Shaip с его опытом в области разговорного ИИ позволил клиенту:
- Сбор данных: 208 12 ключевых фраз/бренд-подсказок, собранных на 2800 языках мира от XNUMX носителей в оговоренные сроки.
- Разные акценты и диалекты: Набраны специалисты со всего мира, владеющие нужными акцентами и диалектами.
- Распознавание контекста и намерений: Каждому выступающему было поручено записать ключевые фразы в 20 различных вариациях, что позволило моделям машинного обучения точно понять запросы пользователей с точки зрения контекста и намерений.
- Обработка фонового шума: Чтобы обеспечить первозданное качество звука, мы позаботились о том, чтобы ключевые фразы были записаны в спокойной обстановке с уровнем шума ниже 40 дБ, без фоновых помех, таких как телевизор, радио, музыка, речь или уличные звуки.
- Уменьшение смещения: Чтобы свести к минимуму предвзятость, мы привлекли людей из разных регионов и сохранили сбалансированное демографическое представление: 50% мужчин и 50% женщин в возрастных группах от 18 до 60 лет.
- Рекомендации по записи: Ключевые фразы были захвачены в последовательном, нормальном речевом образце, без каких-либо вариаций, таких как быстрый или медленный темп. 2-секундная тишина в начале и в конце, чтобы гарантировать, что ни одна часть речи не будет случайно обрезана.
- Форма записи: Звук был записан с частотой 16 кГц, 16-бит PCM в моно, с использованием одного канала и сохранен в формате файла WAV. Звук остается необработанным, то есть не применялись компрессия, реверберация или эквалайзер.
- Качество: Каждая запись речи подвергалась тщательной проверке качества и проверке. Были доставлены только записи, прошедшие эту оценку. Любые файлы, которые не соответствовали согласованным стандартам качества, были перезаписаны и предоставлены без дополнительной оплаты.
Результат
Высококачественные звуковые данные ключевых фраз бренда или голосовые подсказки позволят автомобильным компаниям и их клиентам:
- Брендинг и айдентика: Голосовые подсказки с определенной фразой бренда помогают компаниям создать прямую и запоминающуюся связь между пользователем и брендом, что повышает запоминаемость бренда.
- Простота в использовании: Голосовые команды облегчают водителям взаимодействие с транспортным средством, не отрывая рук от руля и не отрывая глаз от дороги, тем самым повышая безопасность дорожного движения.
- Функциональность: Голосовые команды делают доступ к функциям автомобиля и управление ими более интуитивным. Будь то навигация, воспроизведение мультимедиа или климат-контроль.
- Интеграция с другими системами: Многие системы с голосовым управлением интегрированы со смартфонами, устройствами «умный дом» и другими устройствами IoT. Например, пользователь может попросить свою машину включить свет дома, когда он приближается к дому.
- Конкурентное преимущество: Предложение передовых систем с голосовым управлением может быть преимуществом и отличительной чертой. Покупатели обращают внимание на новейшие технологии при рассмотрении вопроса о покупке нового автомобиля.
- Будущее: По мере развития технологий и все большей интеграции Интернета вещей в повседневную жизнь наличие надежной системы с голосовым управлением позволяет автомобильным компаниям лучше адаптироваться к будущим технологиям.
- Возможности получения дохода: Дополнительные возможности монетизации, т. е. голосовые системы предлагают рекомендации или интегрированные возможности электронной коммерции (например, заказ еды или поиск ближайших услуг), которые могут обеспечить партнерский доход.
Когда мы начали искать голосовые подсказки для автомобильного сектора, нам пришлось столкнуться с многочисленными проблемами. Запечатлеть разнообразие речи, акцентов и тонов было жизненно важно, чтобы представить глобальную клиентуру нашего клиента. Shaip выделялся не только как продавец, но и как настоящий партнер. Их приверженность обеспечению разнообразия голосов из разных регионов заслуживает похвалы. Они вышли за рамки простого сбора голосов; они уловили нюансы потребностей нашего проекта, гарантируя первоклассные записи. Их безупречное соблюдение стандартов аудиоколлекции продемонстрировало их профессионализм и преданность проекту.