Компания Shaip теперь является частью экосистемы Ubiquity: та же команда, но теперь с расширенными ресурсами для поддержки клиентов в масштабах предприятия. |
Сбор данных о высказываниях

Что такое «высказывание» в ИИ? Примеры, наборы данных и передовой опыт

Вы когда-нибудь задумывались, как чат-боты и виртуальные помощники просыпаются, когда вы говорите «Привет, Siri» или «Alexa»? Это происходит из-за набора текстовых высказываний или триггерных слов, встроенных в программное обеспечение, которое активирует систему, как только слышит запрограммированное слово пробуждения.

Однако общий процесс создания звуков и данных о высказываниях не так прост. Это процесс, который должен выполняться с правильной техникой, чтобы получить желаемые результаты. Поэтому в этом блоге вы узнаете, как создавать хорошие высказывания/слова-триггеры, которые без проблем работают с вашим разговорным ИИ.

Что такое «Высказывание» в ИИ?

В разговорном ИИ (чат-ботах, голосовых помощниках) высказывание — это короткий фрагмент пользовательского ввода — точные слова, которые человек произносит или вводит. Модели используют высказывания для определения намерения пользователя (цели) и любых сущностей (таких как даты, названия продуктов, суммы).

Простые примеры

Бот для электронной коммерции

Высказывание: «Отследить мой заказ 123-456".

  • Намерение: TrackOrder
  • Сущность: order_id = 123-456

Телеком-бот

Высказывание: «Обновить мой тарифный план".

  • Намерение: ИзменитьПлан
  • Сущность: тип_плана = данные

Банковский голосовой помощник

Высказывание (разговорное): «WКакой у меня баланс на сегодня?

  • Намерение: Проверка баланса
  • Сущности: тип_аккаунта = проверка, дата = сегодня

Почему вашему разговорному ИИ нужны качественные данные о речевых высказываниях

Если вы хотите, чтобы ваш чат-бот или голосовой помощник был полезным, а не ненадёжным, начните с более качественной обработки данных о высказываниях. Высказывания — это необработанные фразы, которые люди произносят или печатают для выполнения задач («забронируйте мне номер на завтра», «измените мой тарифный план», «какой статус?»). Они определяют классификацию намерений, извлечение сущностей и, в конечном счёте, качество обслуживания клиентов. Когда высказывания разнообразны, репрезентативны и чётко обозначены, ваши модели усваивают верные границы между намерениями и уверенно обрабатывают нестандартные данные из реальной жизни.

Создание хранилища высказываний: простой рабочий процесс

Создание хранилища высказываний

1. Начните с реального языка пользователя

Мой логи чата, поисковые запросы, стенограммы IVR, заметки агентаи электронные письма клиентов. Сгруппируйте их по целям пользователей, чтобы определить их намерения. (Вы сможете уловить разговорные выражения и ментальные модели, которые не придут вам в голову в обычной обстановке.)

2. Создавайте вариации намеренно

Для каждого намерения приведите различные примеры:

  • Перефразируйте глаголы и существительные («отменить», «остановить», «конец»; «план», «подписка»).
  • Смешивайте длину и структуру предложений (вопрос, директива, фрагмент).
  • Включите опечатки, сокращения, эмодзи (для чата), переключение кодов, где это уместно.
  • Добавьте отрицательные случаи, которые выглядят похожими, но должны не карта соответствует этому намерению.

3. Сбалансируйте свои занятия

Слишком однобокое обучение (например, 500 примеров для одного намерения и 10 для других) ухудшает качество прогнозирования. размеры намерений относительно равномерны и выращивайте их вместе, как вас учит дорожное движение.

4. Проверка качества перед обучением

Блокируйте данные со слабым сигналом с помощью валидаторы во время создания/сбора:

  • Определение языка: убедитесь, что примеры соответствуют целевому языку.
  • Детектор тарабарщины: улавливайте бессмысленные строки.
  • Проверки на дубликаты/почти дубликаты: поддерживайте высокое разнообразие.
  • Регулярные выражения/орфография и грамматика: при необходимости применять правила стиля.
    Умные валидаторы (такие, как Appen) могут автоматизировать значительную часть этого контроля.

5. Последовательно маркируйте объекты

Определите типы слотов (даты, продукты, адреса) и покажите аннотаторы как обозначить границы. Такие шаблоны, как Узор любой в LUIS можно устранить неоднозначность длинных, переменных диапазонов (например, названий документов), которые запутывают модели.

6. Тестируйте так, как будто это производство

Push невидимый реальные высказывания в конечной точке прогнозирования или промежуточном боте, проверьте ошибочные классификации и продвижении Включайте в обучение неоднозначные примеры. Создайте цикл: сбор → обучение → обзор → расширение.

Что на самом деле означает «грязная реальность» (и как с ней справиться)

Реальные пользователи редко говорят идеальными предложениями. Ожидайте:

  • Фрагменты: «возврат платы за доставку»
  • Сложные цели: «отменить заказ и заказать заново синим цветом»
  • Неявные сущности: «доставить в мой офис» (вы должны знать, в какой офис)
  • Двусмысленность: «изменить мой план» (какой план? когда вступит в силу?)

Практические решения

  • Обеспечивать уточняющие подсказки только при необходимости; избегайте лишних вопросов.
  • захват перенос контекста (местоимения типа «тот заказ», «последний»).
  • Используйте резервные намерения с целевым возмещением: «Я могу помочь отменить или изменить планы — что бы вы хотели?»
  • Монитор намерение здоровье (путаница, столкновение) и добавьте данные там, где они слабы

Голосовые помощники и слова для пробуждения: разные данные, схожие правила

Голосовые помощники и слова для пробуждения Слова для пробуждения («Привет, Siri», «Алекса», пользовательские фразы для пробуждения) представляют собой специализированное подмножество высказываний со строгими акустическими ограничениями, но мышление охвата всё ещё актуально: разные динамики, устройства и окружение. После пробуждения языковые высказывания Возьмите на себя выполнение основной задачи («включить свет», «сыграть джаз»). Держите будить и задача наборы данных различны и оцениваются отдельно.

Когда (и как) использовать готовые, а не пользовательские данные

Стандартные и пользовательские данные

  • С полки: начните освещать ситуацию в новых регионах, а затем изучите, где сохраняется неясность.
  • На заказ: зафиксируйте язык вашего домена (условия политики, названия продуктов) и «голос бренда».
  • Смешанный: начните с общих данных, а затем добавьте высокоточные данные о намерениях с наибольшим отклонением или влиянием на доход.

Если вам нужен быстрый въезд на автомагистраль, Шаип предоставит вам коллекция высказываний и готовые наборы данных речи/чата на многих языках; см. пример внедрения многоязычного помощника.

Контрольный список реализации

Контрольный список реализации

  • Определите намерения и сущности с примерами и отрицательный кейсы
  • Автор разнообразный, сбалансированный высказывания для каждого намерения (начните с малого, увеличивайте еженедельно)
  • Добавьте валидаторы (язык, бессмысленные слова, дубликаты, регулярные выражения) перед обучением
  • Создавать циклы обзора из реального трафика; продвигать неоднозначные элементы в обучение 
  • трек намерение здоровье и столкновения; исправить новыми высказываниями
  • Повторная оценка по каналу/региону для раннего выявления отклонений

Как Шаип может помочь

  • Сбор и маркировка индивидуальных высказываний (чат + голос) с валидаторами для поддержания высокого качества.
  • Готовые к использованию наборы данных на более чем 150 языках/вариантах для быстрой загрузки.
  • Текущие программы обзора которые безопасно преобразуют живой трафик в высокосигнальные обучающие данные (элементы управления персональными данными).

Изучите наш многоязычный Пример исследования по сбору высказываний.

Социальная Поделиться