Анализ эмоций и настроений речи
Создание более интеллектуальных колл-центров с помощью аналитики на основе искусственного интеллекта
Использование опыта Шайпа в сборе и аннотировании аудиоданных для улучшения распознавания эмоций и настроений в реальном времени с целью улучшения обслуживания клиентов.
Автоматизированная речевая эмоция и
Анализ настроений
Клиент сотрудничал с Shaip для разработки автоматизированной модели анализа речевых эмоций и настроений для колл-центров. Проект включал сбор и аннотирование 250 часов аудиоданных колл-центра на четырех диалектах английского языка — американском, британском, австралийском и индийском. Это позволило клиенту улучшить свои модели ИИ для обнаружения таких эмоций, как «счастливый», «нейтральный» и «злой», а также настроений, таких как «недовольный» и «удовлетворенный», во взаимодействии с клиентами в реальном времени.
Проект преодолел такие трудности, как обнаружение сарказма, разная продолжительность аудиозаписей и тонкие вербальные сигналы недовольства, предоставив точные и масштабируемые результаты.
Основная статистика
Аудиоданные колл-центра собираются и аннотируются на 4 диалектах английского языка
250 ч
Количество языков
Английский (США), английский (Великобритания), английский (Австралия) и английский (Индия)
Случаи использования
Автоматизированный анализ эмоций и настроений речи
Объем проекта
Соберите и аннотируйте 250 часов аудиоданных колл-центра на четырех диалектах английского языка:
- Английский (США) (30%)
- Английский (Великобритания) (30%)
- Австралийский английский (20%)
- Индийский английский (20%)
В рамках
Проект состоит из трех частей:
- Аудиоданные с определенными сущностями, включая метаданные.
- Соответствующие транскрибированные файлы с подробной информацией о сегментации и временных метках.
- Аннотации эмоций и настроений:
- Аудиоэмоция: Счастливый, Нейтральный, Злой
- Транскрипция Настроение: Крайне недоволен, Недоволен, Нейтральный, Доволен, Крайне доволен
Задачи
Обеспечение того, чтобы аудиоданные точно представляли указанные диалекты (США, Великобритания, Австралия и Индия), может быть сложной задачей. Различные регионы в пределах этих категорий могут использовать разный словарный запас, акценты и произношение.
Для аннотирования аудиозаписей и транскрипций с целью передачи эмоций и настроений требуются обученные аннотаторы, знакомые с культурными нюансами и языковыми тонкостями каждого диалекта.
Аудиоэмоция и транскрипционное настроение не всегда совпадают. Например, человек может звучать сердитым, но на самом деле выражать удовлетворение. Например, обработка саркастических разговоров в саркастических фразах типа «О, замечательно, еще один человек, который не может решить мою проблему» должна быть правильно аннотирована для эмоций и настроений.
Качество аудиозаписей может различаться, что влияет на точность транскрипции и распознавание эмоций. Фоновый шум, накладывающиеся друг на друга разговоры и различное записывающее оборудование могут создавать значительные проблемы.
Недовольство выражается посредством вербальных сигналов, таких как тяжелые выдохи или другие признаки разочарования.
Решение
Используя передовые методы обработки естественного языка (NLP), были реализованы следующие решения:
Сбор данных
- 250 часов аудиоданных, разделенных на квоты по диалектам.
- Английский (США) (30% или 75 часов)
- Английский (Великобритания) (30% или 75 часов)
- Австралийский английский (20% или 50 часов)
- Индийский английский (20% или 50 часов)
- Носители акцента из США, Великобритании, Австралии и Индии.
- Примеры речи, содержащие различные тона, с особым акцентом на случаях, когда эмоция голоса — «Злой», а настроение текста — «Недовольство» или «Крайнее недовольство».
Классификация/Аннотация текста

- Аннотация эмоций и чувств на основе определенных категорий:
- Аудиоэмоция: Счастливый, Нейтральный, Злой.
- Транскрипция Настроение: Крайне недоволен, недоволен, нейтрален, удовлетворён, чрезвычайно удовлетворён.
- Каждый аудиофрагмент содержал только одну основную эмоцию.
- Различные интервалы задержки (от 2 до 30 секунд) применяются в разговорах.
- Формат транскрипции соответствовал выходным данным JSON, включая информацию о левом и правом говорящих, теги настроений и тональность финального сегмента.
Гарантия качества

Точность транскрипции:
- Обеспечил поставку 250 часов аудиоматериалов, включая как минимум:
- Точность коэффициента ошибок транскрипции (TER) составляет 90%.
- Точность распознавания слов (WER) составляет 95%.
Процесс контроля качества:
- Проводились регулярные проверки случайно выбранных образцов из набора данных.
- Использовались автоматизированные инструменты для измерения TER и WER по всему набору данных.
- Ручной просмотр отмеченных разделов обеспечил соблюдение пороговых значений точности.
Результат
Данные обучения будут способствовать разработке автоматизированной модели определения эмоций и настроений, которая обеспечит:
- Распознавание эмоций в реальном времени при взаимодействии с колл-центром.
- Более эффективная обработка сложных случаев, таких как сарказм или недовольство.
- Масштабируемость для будущих проектов, легкая адаптация к возросшим объемам данных и большему количеству языков.
Результат
- 250 часов аудиофайлов (в формате 8 кГц PCM WAV, моно)
- Файлы транскрипции (с сегментацией, тегами настроений и идентификаторами говорящих)
- Метаданные (продолжительность звука, сведения о говорящем и т. д.)
Партнерство с Shaip для нашего проекта по обработке данных колл-центра стало поворотным моментом в продвижении наших решений ИИ. Их команда искусно собрала и аннотировала 250 часов аудиоданных на четырех основных диалектах английского языка — американском, британском, австралийском и индийском — обеспечивая высочайшее качество и точность. Внимание к лингвистическим нюансам в этих регионах значительно повысило точность наших моделей распознавания речи. Кроме того, опыт Shaip в работе со сложными проектами по аннотированию данных сыграл решающую роль в создании надежных, совместимых моделей в масштабе.