Работники толпы для сбора данных

Краудсорсинг для сбора данных — неотъемлемая часть этического ИИ

В наших усилиях по созданию надежных и беспристрастных решений ИИ уместно сосредоточиться на обучении моделей на беспристрастном, динамичном и репрезентативном наборе данных. Наш процесс сбора данных чрезвычайно важен для разработки надежных решений ИИ. В связи с этим сбор Данные для обучения ИИ через краудворкеров становится важным аспектом стратегии сбора данных.

В этой статье давайте рассмотрим роль краудворкеров и их влияние на развитие ИИ. алгоритмы обучения и модели машинного обучения, а также необходимость и преимущества, которые они придают всему процессу. 

Почему для создания моделей ИИ требуются краудсорберы?

Как люди, мы генерируем тонны данных, но только часть этих сгенерированных и собранных данных представляет ценность. Из-за отсутствия стандартов сравнительного анализа данных большая часть собранных данных либо необъективна, либо связана с проблемами качества, либо не отражает окружающую среду. Поскольку все больше и больше обучение с помощью машины и разрабатываются модели глубокого обучения, которые процветают на огромных объемах данных, потребность в более качественных, новых и разнообразных наборах данных становится все более ощутимой.

Именно здесь в игру вступают работники толпы.

Краудсорсинг данных — это создание набора данных с участием больших групп людей. Работники толпы внедряют человеческий интеллект в искусственный интеллект.

Краудсорсинговые платформы поручить сбор данных и аннотирование микрозадач большой и разнообразной группе людей. Краудсорсинг позволяет компаниям получить доступ к огромной, динамичной, рентабельной и масштабируемой рабочей силе.

Самая популярная краудсорсинговая платформа — Amazon Mechanical Turk — смогла найти 11 тысяч диалогов между людьми за 15 часов и заплатила работникам $0.35 за каждый успешный диалог. Рабочие группы нанимаются за такую ​​скудную сумму, что проливает свет на важность создания этических стандартов поиска данных.

Теоретически это звучит как умный план, но реализовать эту стратегию непросто. Анонимность массовых работников привела к проблемам с низкой оплатой труда, игнорированием прав работников и некачественной работой, влияющей на производительность модели ИИ. 

Преимущества наличия толпы работников для получения данных

Привлекая разнородную группу сотрудников, разработчики решений на основе ИИ могут распределять микрозадачи и собирать разнообразные и широко распространенные наблюдения быстро и с относительно низкими затратами.

Некоторые из заметных преимуществ использования коллективных работников для проектов ИИ:

Преимущества сбора данных с помощью коллективных работников

Более быстрое время выхода на рынок: Согласно исследованию Cognilytica, почти 80% of искусственный интеллект время проекта тратится на действия по сбору данных, такие как очистка данных, маркировка и их агрегирование. Только 20% времени уходит на развитие и обучение. Традиционные барьеры для создания данных устраняются, поскольку большое количество участников может быть набрано за короткое время. 

Экономичное решение: Краудсорсинговый сбор данных сокращает время и энергию, затрачиваемую на обучение, набор и привлечение их на борт. Это устраняет затраты, время и ресурсы, необходимые, поскольку рабочая сила используется по методу оплаты за задачу. 

Повышает разнообразие в наборе данных: Разнообразие данных имеет решающее значение для всего обучения решению ИИ. Чтобы модель давала объективные результаты, она должна быть обучена на разнообразном наборе данных. Благодаря краудсорсингу данных можно создавать разнообразные (географические, языковые, диалектные) наборы данных с минимальными усилиями и затратами.

Улучшает масштабируемость: Когда вы нанимаете надежных краудворкеров, вы можете гарантировать высококачественный сбор данных, которые можно масштабировать в зависимости от потребностей вашего проекта.

Внутренние или краудсорсинговые компании: кто окажется победителем?

Внутренние данныеКраудсорсинговые данные
Точность и согласованность данных могут быть гарантированы.Качество, точность и согласованность данных можно поддерживать, если задействовать надежные краудсорсинговые платформы со стандартными мерами обеспечения качества.
Внутренний поиск данных не всегда является практичным решением, поскольку ваша внутренняя команда может не соответствовать требованиям проекта.Разнообразие данных может быть обеспечено, поскольку можно нанять разнородную группу краудсорсинга в зависимости от потребностей проекта.
Дороговизна найма и обучения работников для нужд проекта.Экономичное решение для сбор данных поскольку можно нанимать, обучать и брать на работу работников с меньшими вложениями.
Время выхода на рынок велико, так как сбор данных внутри компании занимает значительное время.Время выхода на рынок значительно меньше, так как многие вклады поступают быстро.
Небольшая группа штатных участников и лейблеровБольшой и разнообразный коллектив участников и маркировщики данных
Конфиденциальность данных очень высока благодаря собственной команде.Конфиденциальность данных трудно поддерживать при работе с большим количеством сотрудников по всему миру.
Легче отслеживать, обучать и оценивать сборщиков данныхСложно отслеживать и обучать сборщиков данных.

Сокращение разрыва между работниками краудсорсинга и заказчиком.

Преодоление разрыва между работниками краудсорсинга и запросчиком Существует острая необходимость преодолеть разрыв между работниками краудфандинга и просителями, причем не только в сфере оплаты труда.

Налицо вопиющее отсутствие информации со стороны запрашивающей стороны, поскольку работникам предоставляется только информация, касающаяся конкретной задачи. Например, хотя работникам даются микрозадачи, такие как запись диалогов на их родном диалекте, им редко предоставляется контекст. У них нет необходимой информации о том, почему они делают то, что делают, и как лучше всего это сделать. Недостаток информации влияет на качество краудсорсинговой работы.

Для человека наличие всего контекста обеспечивает ясность и цель его работы.

Добавьте к этому еще одно измерение NDA — соглашения о неразглашении, которые ограничивают объем информации, предоставляемой краудворкеру. С точки зрения краудфандинга такое изъятие информации свидетельствует об отсутствии доверия и уменьшении важности их работы.

Когда на ту же ситуацию смотришь с другой стороны спектра, со стороны работника не хватает прозрачности. Заявитель не полностью понимает работника, которому поручено выполнить работу. Для некоторых проектов может потребоваться определенный тип работника; однако в большинстве проектов присутствует двусмысленность. основа истины Это может усложнить оценку, обратную связь и обучение в будущем.

Чтобы противостоять этим трудностям, важно работать с экспертами по сбору данных, имеющими опыт предоставления разнообразных, тщательно отобранных и хорошо представленных данных от широкого круга участников.

Выбор Shaip в качестве партнера по обработке данных может иметь множество преимуществ. Мы ориентируемся на разнообразие и репрезентативное распределение данных. Наш опытный и преданный своему делу персонал понимает требования каждого проекта и разрабатывает наборы данных, которые могут в кратчайшие сроки обучать надежные решения на основе ИИ.

[Также Читайте: Начальное руководство по данным для обучения ИИ: определение, пример, наборы данных]

Социальная Поделиться