Улучшение понимания поисковых запросов с помощью человеческих аннотаций

Использование человеческого суждения и структурированной таксономии для последовательной обработки неоднозначных пограничных случаев и повышения релевантности поиска для ведущего польского конгломерата электронной коммерции.

Расширение поискового запроса

Обзор проекта

Клиент, польский лидер в сфере электронной коммерции, ежедневно получает миллионы поисковых запросов. Многие из этих запросов двусмысленный, включают опечаткамиили обратитесь к несколько категорий продуктов, создавая проблемы для автоматизированных поисковых систем.

Чтобы улучшить sточность поиска и качество обслуживания клиентовШайп разработал структурированную систему аннотаций, вдохновлённую исследованием Беймарда. Запросы были систематически классифицированы по категории 11 (например, Категория продукта, Тема, Конкретный атрибут, Точный, Торговец, Симптом, Не продукт и т. д.) с правила приоритета для обеспечения единообразной категоризации.

 

Расширение поискового запроса

Основная статистика

Более 50 000 запросов с аннотациями

в нескольких категориях

11 классов аннотаций

с четкими определениями и правилами приоритета

Трехэтапный рабочий процесс

Аннотирование ➔ Контроль качества ➔ Арбитраж для экспертов в предметной области

Объем проекта

Проект был сосредоточен на строительстве комплексная таксономия Для охвата всего спектра поискового поведения пользователей на крупномасштабной торговой платформе. Задача включала:

  • Разработка таксономии из 11 категорий с четкими определениями и иерархией приоритетов для случаев, когда запросы могут относиться к нескольким классам.
  • Аннотирование тысяч реальных запросов как в продуктовых, так и в непродуктовых областях для обучения и калибровки системы классификации.
  • Разрешение неоднозначных запросов путем передачи вопроса экспертам по предметной области (SME), что обеспечивает единообразие в обработке особых случаев.
  • Предоставление аннотированных примеров и обоснований для калибровки качества, создания обучающего набора, на который будущие аннотаторы могли бы ссылаться.

Примеры аннотаций включены:

  • De dietrich ELENSIO ➔ Exact
  • E 91 ➔ Трудно сказать
  • tezfiles ➔ Торговец
  • subaru brz toyota gt86 ➔ Non-Product
  • okulary BHP ➔ Product Category
  • stawu skokowego ➔ Symptom

Задачи

Проекту пришлось преодолеть несколько проблемы сложности данных которые типичны для поисковых сред электронной коммерции:

Двусмысленность

Запросы типа «E 91» могут соответствовать совершенно разным продуктам (модели автомобиля, держателю предохранителя, отпечатку капсулы), что делает интерпретацию весьма неопределенной.

Опечатки и варианты

Ошибочные написания или сокращения, такие как «lampa uf zestaw», требуют контекстной человеческой интерпретации для понимания как «lampa UV zestaw».

Перекрывающиеся категории

Запросы часто соответствовали нескольким классам (например, «Точный» против «Совместимый» против «Определенный атрибут»), требуя правил приоритета для обеспечения согласованности.

Неверные входные данные

Серийные коды или идентификаторы, не соответствующие ни одному продукту, необходимо было пометить как «Недопустимая фраза», а не классифицировать неправильно.

Масштабируемость

Последовательное применение правил классификации с учетом нюансов десятки тысяч запросов требовали строгого контроля качества и управления аннотациями.

Решение

Для решения этих проблем необходимо структурированная структура аннотаций была введена система, сочетающая автоматизацию с человеческим контролем:

Рекомендации по аннотациям

Подробные определения, примеры и инструкции были созданы, чтобы помочь аннотаторам проводить единообразную классификацию даже в сложных сценариях.

Правила приоритета

Была установлена ​​иерархия (например, Совместимый > Точный > Конкретный атрибут), поэтому совпадающие случаи разрешались систематически.

Многоуровневый процесс обеспечения качества

  1. Первичное аннотирование подготовленными аннотаторами.
  2. Вторичная проверка специалистами отдела обеспечения качества.
  3. Передача дела в арбитраж субъектам малого и среднего предпринимательства в случае возникновения особых случаев или разногласий

Практическое применение рекомендаций в реальных запросах

  • 4008146044786 ➔ Неверная фраза
  • miraculum królika Тематический атрибут
  • zcd галактический серый совместимый
  • Бельгийская овчарка Варианты

 Это гарантировало выравнивание, качество и надежность по всему конвейеру аннотаций.

Результат

Инициатива принесла ощутимые улучшения в поисковую экосистему клиента:

  • 50 000+ запросов по объявлениям с высокой точностью, формируя надежный обучающий набор данных для улучшения поиска.
  • Повышение релевантности результатов поиска, что напрямую повышает удовлетворенность пользователей и снижает разочарование от нерелевантных совпадений.
  • Уменьшенная двусмысленность путем систематического разрешения особых случаев посредством арбитража, проводимого малыми и средними предприятиями, и правил прецедента.
  • Улучшенная обнаруживаемость продукта, что позволяет пользователям более точно находить элементы по категориям, атрибутам и темам.

В целом, проект заложил основу для более интеллектуальный, ориентированный на пользователя опыт поиска, помогая клиенту сохранять конкурентоспособность на рынке электронной коммерции.

Процесс аннотирования, выполняемый человеком, внёс ясность в сложные поисковые запросы. Структурированная таксономия и правила приоритетов значительно повысили точность нашей поисковой системы и сделали пользовательский опыт более удобным.

– Руководитель отдела поиска и обнаружения, польский конгломерат электронной коммерции

Золотой-5-звездочный