Данные обучения ИИ

Сколько данных для обучения вам действительно понадобится для машинного обучения в 2026 году?

Успешная модель машинного обучения начинается с высококачественных обучающих данных. Но один из самых распространенных вопросов, которые задают команды в начале проекта по искусственному интеллекту, звучит так: Какой объем обучающих данных является достаточным?

Честный ответ таков: не существует универсального количества данных, подходящего для каждого проекта. Необходимый объем данных зависит от задачи, сложности модели, количества классов, качества данных, точности меток и желаемого уровня производительности.

На практике наилучший способ оценить потребности в обучающих данных — начать с репрезентативной выборки, обучать модель на постепенно увеличивающихся подмножествах и измерять, когда производительность модели начинает стабилизироваться. Это помогает командам принимать обоснованные решения о стоимости, сроках, трудозатратах на аннотирование и ожидаемых результатах.

В этом блоге мы разберем основные факторы, влияющие на объем обучающих данных, объясним, как на практике оценить необходимые объемы, и покажем, что делать, когда вам нужно больше данных, не задерживая реализацию вашей стратегии в области ИИ.

Почему важны обучающие данные

Обучающие данные — это основа любой системы машинного обучения. Каким бы сложным ни был алгоритм, он может изучать только те закономерности, которые присутствуют в данных, используемых для его обучения. Если данные неполные, предвзятые, зашумленные или слишком ограниченные, модели будет сложно обобщать результаты в реальном мире.

Качественные обучающие данные помогают командам:

  • повысить точность модели
  • уменьшить предвзятость и слепые зоны
  • более точно оценить стоимость и целесообразность проекта
  • сократить объем доработок в процессе итерации модели
  • создать более надежные конвейеры проверки и тестирования

Именно поэтому сбор, очистка, маркировка и проверка данных часто занимают наибольшую долю усилий в проектах по искусственному интеллекту. Если данные слабые, то и прогнозы будут слабыми.

Универсального числа не существует, но есть практический способ его оценить.

Во многих статьях пытаются ответить на этот вопрос одним числом. Это редко бывает полезно.

Модель для простой бинарной классификации может хорошо работать с относительно небольшим набором данных, в то время как для тонкой настройки больших языковых моделей или для систем компьютерного зрения, работающих с граничными случаями, может потребоваться значительно больше примеров. Более уместный вопрос не в том, «какое волшебное число?», а в следующем:

Какой минимальный объем высококачественных, репрезентативных обучающих данных необходим для достижения целевых показателей производительности в данном сценарии использования?

Практический способ ответить на этот вопрос — использовать кривые обучения: обучайте модель на всё больших объёмах данных и наблюдайте, насколько улучшается производительность на каждом шаге. Когда улучшение начинает замедляться, вы получаете гораздо более чёткий сигнал о том, стоит ли собирать больше данных. Этот подход обычно рекомендуется в практических рабочих процессах машинного обучения.

7 факторов, определяющих необходимый объем обучающих данных

1. Тип модели: классическое машинное обучение против глубокого обучения.

Тип модели оказывает существенное влияние на требования к данным. Классические модели машинного обучения, такие как логистическая регрессия, деревья решений или градиентный бустинг, часто хорошо работают на небольших структурированных наборах данных, особенно если признаки хорошо спроектированы.

Модели глубокого обучения, как правило, требуют больше данных, поскольку они автоматически изучают признаки и содержат гораздо больше параметров. Для задач обработки изображений, аудио и языка модели глубокого обучения обычно значительно выигрывают от увеличения объема и разнообразия данных.

2. Обучение с учителем и обучение без учителя

Для обучения с учителем требуются размеченные данные, сбор которых зачастую сложнее и дороже. Если вашей модели требуется, чтобы люди аннотировали изображения, расшифровывали аудиозаписи, помечали объекты или классифицировали документы, то требования к данным должны учитывать как количество, так и трудозатраты на разметку.

Обучение без учителя не требует размеченных данных, но все же выигрывает от использования больших репрезентативных наборов данных. Даже без меток модели необходимо достаточное покрытие для выявления значимых закономерностей и структуры. 

3. Сложность задачи и количество классов

Простая задача бинарной классификации сильно отличается от задачи многоклассовой классификации медицинских изображений или многоязычной системы распознавания речи.

По мере увеличения сложности задачи требования к обучающим данным обычно возрастают, поскольку модель должна научиться:

  • больше занятий
  • более тонкие различия между категориями
  • больше крайних случаев
  • большая контекстная изменчивость

Например, отличить «кошку» от «собаки» гораздо проще, чем выявить десятки визуально похожих дефектов продукции в зависимости от условий освещения, ракурсов камеры и фона.

4. Качество данных и точность маркировки

Больше данных не всегда означает лучшее качество, если оно низкое.

Меньший набор данных с точными метками, сбалансированным представлением и согласованным форматированием может превзойти по производительности больший, но зашумленный набор данных. Низкое качество меток, дублирующиеся записи, слабые определения классов, отсутствующие метаданные и непоследовательные правила аннотирования — все это снижает производительность модели.

Прежде чем собирать дополнительные данные, командам следует задать себе следующие вопросы:

  • Согласованы ли обозначения?
  • Охватываем ли мы все важные сценарии использования?
  • Отражают ли данные производственные условия?
  • Правильно ли разделены обучающая, валидационная и тестовая выборки?

Для многих проектов повышение качества данных приносит более быстрые результаты, чем простое увеличение объема данных.

5. Разнообразие, охват и классовый баланс

Модель должна обучаться на основе реальных изменений, с которыми она столкнется после развертывания. Это означает, что набор данных должен отражать различные сценарии, группы пользователей, типы устройств, акценты, среды, форматы документов, условия обработки изображений и граничные случаи.

Если один класс или сегмент недостаточно представлен, модель может казаться в целом точной, но при этом давать серьезные сбои в отношении критически важных подгрупп. Именно поэтому разнообразие и баланс классов имеют такое же значение, как и их общий размер.

Во многих случаях вопрос заключается не в том, «Достаточно ли у нас данных?», а в том, «Достаточно ли у нас правильных данных?».

6. Перенос обучения и предварительно обученные модели

Если вы начинаете с предварительно обученной модели, вам может потребоваться гораздо меньше данных, специфичных для конкретной задачи, чем если бы вы обучали модель с нуля.

Это особенно актуально для:

  • классификация изображений с использованием базовых систем машинного зрения
  • Задачи обработки естественного языка с использованием моделей на основе трансформеров
  • речевые модели, адаптированные к новому акценту или области применения
  • рабочие процессы адаптации домена

Перенос обучения позволяет командам повторно использовать знания, полученные на больших существующих наборах данных, что может значительно снизить нагрузку на аннотирование. В оригинальной статье это уже хорошо освещено; её следует оставить, но с более наглядными примерами.

7. Стратегия валидации и целевые показатели эффективности

Объем необходимых данных также зависит от того, насколько качественной должна быть модель.

Прототип может работать с небольшим объемом данных. Для производственной модели в сферах здравоохранения, финансов, страхования, автомобильной промышленности или в условиях жесткого соблюдения нормативных требований потребуется более широкий охват, более четкие обозначения, лучшая валидация и более надежная работа в различных нестандартных ситуациях. Чем строже допустимый уровень ошибок, тем более надежным должен быть ваш набор данных.

Как на практике оценить потребности в обучающих данных

Вместо того чтобы гадать, используйте структурированный процесс оценки.

Шаг 1: Начните с репрезентативного набора данных пилотного проекта.

Соберите небольшую, но репрезентативную выборку из проблемного пространства. Включите важные классы, форматы, типы пользователей и варианты, характерные для реального мира.

Шаг 2: Правильно разделите данные.

Создайте отдельные наборы данных для обучения, проверки и тестирования. Убедитесь, что тестовый набор данных отражает условия производственной среды и никогда не используется во время обучения.

Шаг 3: Обучение на постепенно увеличивающихся выборках.

Обучите модель, используя возрастающие доли набора данных, такие как 10%, 20%, 40%, 60%, 80% и 100%.

Шаг 4: Построение кривой обучения

Отслеживайте показатели производительности, такие как точность, F1-мера, полнота, прецизия или специфические для задачи показатели качества, по мере увеличения размера набора данных.

Шаг 5: Найдите плато

Если производительность модели резко улучшается с увеличением объема данных, вам, вероятно, потребуется больше данных. Если же улучшение замедляется, узким местом может быть уже не объем данных, а качество меток, дизайн признаков, выбор модели или дисбаланс классов.

Шаг 6: Анализ производительности на уровне сегмента

Проверьте, как модель работает не только в целом, но и по важным классам и крайним случаям. Модель может стабилизироваться в целом, но при этом показывать крайне низкие результаты в сегментах, относящихся к меньшинству. Этот метод позволяет заинтересованным сторонам получить более реалистичную оценку того, какой объем дополнительных данных целесообразно собрать.

Как понять, что у вас достаточно обучающих данных

Вероятно, у вас достаточно данных, когда:

  • Производительность модели улучшается лишь незначительно по мере добавления большего количества данных.
  • Результаты валидации остаются стабильными при многократном запуске или итерации.
  • Важные классы показывают приемлемые результаты, а не только большинство.
  • Производительность сохраняется на чистом, нетронутом тестовом наборе.
  • Остальные ошибки вызваны скорее шумом в метках или неоднозначностью, чем недостатком примеров.

Вам, вероятно, потребуется больше данных в следующих случаях:

  • Кривая обучения все еще поднимается
  • Редкие классы демонстрируют низкую эффективность.
  • Модель не работает в типичных условиях реального мира.
  • Результаты сильно колеблются от одного запуска к другому.
  • Результаты тестирования резко снижаются по сравнению с результатами валидации.

Как сократить требования к обучающим данным

Иногда проблема заключается не в проектировании модели, а в дефиците данных, бюджете или сроках выхода на рынок. В таких случаях команды могут уменьшить свою зависимость от огромных объемов данных с помощью правильных стратегий.

Увеличение данных

Расширение данных создает новые обучающие примеры на основе существующих данных. В компьютерном зрении это может включать обрезку, вращение, отражение или регулировку яркости. В обработке естественного языка и речи расширение данных требует большей осторожности, но контролируемые преобразования все еще могут помочь.

При правильном использовании аугментация повышает устойчивость моделей и помогает им лучше обобщать данные. При неправильном использовании она может вносить шум или нереалистичные примеры.

Передача обучения

Перенос обучения позволяет адаптировать существующую модель для решения новой задачи вместо обучения с нуля. Зачастую это один из наиболее эффективных способов сократить объем обучающих данных.

Предварительно обученные модели

Предварительно обученные модели, такие как модели обработки естественного языка типа BERT или устоявшиеся архитектуры для обработки изображений, могут стать хорошей отправной точкой. Вместо того чтобы изучать все с нуля, модель начинает с полезных предварительных знаний.

Активное изучение

Если разметка данных обходится дорого, активное обучение может помочь расставить приоритеты и сначала обработать наиболее информативные примеры. Это повышает эффективность аннотирования и может сократить количество меток, необходимых для достижения приемлемых результатов.

Синтетические данные

Синтетические данные могут быть полезны, когда реальные данные скудны, конфиденциальны или их трудно собрать, особенно в таких областях, как здравоохранение, финансы, автономные системы и моделирование нестандартных ситуаций. Но они должны дополнять, а не слепо заменять реальные, репрезентативные данные.

Реальные примеры проектов машинного обучения с минимальными наборами данных

Хотя может показаться невозможным, что некоторые амбициозные проекты машинного обучения могут быть реализованы с минимальным количеством исходных материалов, некоторые случаи поразительно верны. Приготовьтесь удивляться.

Отчет KaggleЗдравоохранениеКлиническая онкология
Опрос Kaggle показывает, что более 70% проектов машинного обучения были завершены с использованием менее 10,000 XNUMX образцов.Используя всего 500 изображений, команда Массачусетского технологического института обучила модель обнаруживать диабетическую нейропатию на медицинских снимках, полученных при сканировании глаза.Продолжая пример со здравоохранением, команде Стэнфордского университета удалось разработать модель для обнаружения рака кожи всего с помощью 1000 изображений.

Делать обоснованные предположения

Оценка требований к обучающим данным

Магического числа относительно минимального количества требуемых данных не существует, но есть несколько эмпирических правил, которые вы можете использовать, чтобы получить рациональное число.

Правило трех

практическое правило, для разработки эффективной модели ИИ количество необходимых обучающих наборов данных должно быть в десять раз больше, чем каждый параметр модели, также называемый степенями свободы. Правила «10 раз» направлены на ограничение изменчивости и увеличение разнообразия данных. Таким образом, это эмпирическое правило может помочь вам начать работу над проектом, дав вам общее представление о необходимом количестве наборов данных.  

Глубокое обучение

Методы глубокого обучения помогают разрабатывать качественные модели, если в систему предоставляется больше данных. Принято считать, что 5000 размеченных изображений на категорию должно быть достаточно для создания алгоритма глубокого обучения, который может работать наравне с людьми. Для разработки исключительно сложных моделей требуется как минимум 10 миллионов помеченных элементов.

Компьютерное зрение

Если вы используете глубокое обучение для классификации изображений, существует консенсус, что набор данных из 1000 помеченных изображений для каждого класса — это справедливое число. 

Кривые обучения

Кривые обучения используются для демонстрации эффективности алгоритма машинного обучения в зависимости от количества данных. Имея навык моделирования по оси Y и набор обучающих данных по оси X, можно понять, как размер данных влияет на результат проекта.

Цена недостатка данных

Когда команды обучают модель на ограниченных, узких или предвзятых наборах данных, модель может казаться многообещающей на этапе разработки, но потерпеть неудачу в производственной среде.

Недостаток данных может привести к:

  • переобучения
  • слабое обобщение
  • нестабильные прогнозы
  • низкие показатели успеваемости среди представителей меньшинств
  • более высокий риск предвзятости
  • дополнительное время на итерации позже

Иными словами, ограничения в ваших обучающих данных часто становятся ограничениями вашего продукта.

Что делать, если вам нужно больше наборов данных

Методы/источники сбора данных

Когда вы обнаруживаете пробел в данных, решение не всегда заключается в том, чтобы «собрать всё». Более разумный подход — это стратегическое расширение набора данных.

1. Используйте открытые наборы данных с осторожностью.

Открытые наборы данных могут помочь в прототипировании или сравнительном анализе, но они не всегда подходят для использования в производственных целях. Прежде чем полагаться на них, командам следует проверить происхождение, согласие, качество, релевантность и охват.

2. Соберите пользовательские данные для вашего конкретного случая.

Если целевая среда очень специфична, то сбор данных на заказ часто является наилучшим вариантом. Это особенно актуально для сложных предметных рабочих процессов, таких как ИИ в здравоохранении, разговорный ИИ, нестандартные ситуации в компьютерном зрении и многоязычные системы.

3. Улучшение существующих данных посредством аннотирования.

У многих команд уже есть исходные данные, но отсутствует структура. Аннотирование, перемаркировка, очистка таксономии и проверка качества могут быстрее принести пользу, чем сбор совершенно новых наборов данных.

4. Восстановление баланса среди недостаточно представленных классов.

Если показатели по отдельным категориям низкие, следует сосредоточить сбор и маркировку данных на этих наиболее важных пробелах, а не расширять весь набор данных равномерно.

5. При необходимости добавляйте синтетические или дополненные данные.

Когда реальные данные ограничены или являются конфиденциальными, синтетические и дополненные данные могут помочь улучшить охват, но их следует тщательно проверять на соответствие реальным распределениям.

6. Сотрудничество со специализированным партнером по работе с данными.

Для команд, разрабатывающих масштабные производственные системы искусственного интеллекта, сотрудничество с поставщиком, способным собирать, лицензировать, аннотировать, проверять и управлять высококачественными обучающими данными, может значительно снизить проектные риски и ускорить развертывание.

Заключение

В машинном обучении не существует универсального оптимального количества обучающих данных. Правильное количество зависит от конкретного случая, типа модели, качества данных, разнообразия классов, стратегии валидации и целевой производительности.

Наиболее эффективный способ оценить потребность в обучающих данных — начать с репрезентативной выборки, измерить производительность с помощью кривых обучения и стратегически расширять набор данных в зависимости от того, где модель все еще дает сбои.

Для некоторых проектов может быть достаточно небольшого, но качественного набора данных. Для других, особенно в условиях высоких ставок или высокой изменчивости, успех зависит от больших, тщательно отобранных и хорошо аннотированных наборов данных.

Самое важное — это не просто наличие большего количества данных, а наличие... правильные данные.

У вас есть отличный проект, но вы ждете индивидуальных наборов данных для обучения ваших моделей или изо всех сил пытаетесь получить правильный результат от своего проекта? Мы предлагаем обширные обучающие наборы данных для различных нужд проекта. Используйте потенциал Шаип поговорив с одним из наших ученые-данные сегодня и понимание того, как мы предоставляли высокопроизводительные и качественные наборы данных для клиентов в прошлом.

Единого фиксированного значения нет. Оптимальное количество зависит от задачи, сложности модели, качества меток, баланса классов и целевой точности. Наиболее надежный способ оценки — обучение на увеличивающихся подмножествах данных и измерение улучшений производительности.

Вероятно, вам потребуется больше обучающих данных, если производительность модели продолжает улучшаться по мере увеличения размера данных, если редкие классы показывают низкую эффективность или если результаты нестабильны при разных запусках.

Да. Перенос обучения позволяет моделям повторно использовать знания из ранее обученных систем, что может значительно сократить объем необходимых для решения конкретной задачи размеченных данных.

Не обязательно. Увеличение количества низкокачественных или плохо размеченных данных может негативно сказаться на производительности. Во многих случаях улучшение качества, сбалансированности и репрезентативности данных более ценно, чем простое увеличение их объема.

Модели глубокого обучения обычно требуют больше данных, чем классические модели машинного обучения, особенно для задач обработки изображений, речи и языка. Однако предварительно обученные модели и трансферное обучение могут снизить эти требования.

Социальная Поделиться