OCR с открытым исходным кодом

22 лучших открытых набора данных для распознавания текста (OCR) для обучения моделей машинного обучения в 2026 году

Оптическое распознавание символов (OCR) сегодня используется для сканирования чеков, проверки личности, автоматизации обработки счетов-фактур, оцифровки исторических архивов и создания заметок с помощью стилуса. По прогнозам, к 2030 году рынок OCR достигнет 32.90 млрд долларов США при среднегодовом темпе роста 14.8% (Grand View Research, 2024), при этом наиболее быстро будет расти интеллектуальное распознавание символов — направление OCR, распознающее рукописный текст. Независимо от того, разрабатываете ли вы систему для анализа документов, обнаружения текста на экране или транскрипции рукописного текста, набор данных OCR, на котором вы обучаете систему, определяет ваш потолок точности. В этом руководстве рассматриваются 22 бесплатных набора данных OCR с открытым исходным кодом, включая лучшие наборы данных для распознавания рукописного текста, организованные по областям применения и обновленные с учетом самых актуальных версий до 2024 года.

Основные выводы

  • OCR (оптическое распознавание символов): Технология, которая преобразует изображения печатного, документального или рукописного текста в машиночитаемые данные.
  • Наборы данных OCR разделены на пять групп: документы/формы, текст сцены, цифры/символы, рукописный текст и многоязычные данные.
  • Наборы данных OCR для документов Захват структурированных страниц, таких как формы и квитанции; наборы данных текста сцены Захват текста «в естественных условиях».
  • IAM, MNIST, ICDAR и SROIE остаются наиболее цитируемыми эталонными стандартами оптического распознавания символов в научных исследованиях.
  • Условия лицензирования сильно различаются — перед коммерческим обучением проверяйте каждый набор данных OCR.

Что такое OCR (оптическое распознавание символов)?

OCR — это технология, которая преобразует различные типы документов, такие как отсканированные бумажные документы, PDF-файлы или изображения текста, в редактируемые и доступные для поиска данные. Она работает следующим образом:

  • Анализ структуры текста на изображении
  • Разбиение текста на строки и символы
  • Преобразование этих визуальных символов в машиночитаемый текст

Общие использования включают в себя:

  • Преобразование отсканированных документов в редактируемые текстовые файлы
  • Оцифровка печатных книг
  • Извлечение текста из фотографий
  • Преобразование рукописных рецептов в цифровой текст
  • Распознавание автомобильных номеров

Как выбрать подходящий набор данных для оптического распознавания символов (OCR)?

Выбор набора данных для распознавания текста зависит от четырех факторов: типа текста, среды захвата, детализации аннотаций и лицензии. Для распознавания текста на печатных документах требуются иные обучающие данные, чем для рукописного текста, написанного курсивом или изогнутыми линиями. Наборы данных для документов подходят для счетов-фактур, форм и квитанций; наборы данных для текста на страницах подходят для вывесок и чтения информации о товарах; наборы данных для рукописного текста подходят для заметок, рукописей и ввода с помощью стилуса. Аннотации на уровне слов и строк поддерживают полные конвейеры распознавания текста, в то время как наборы данных на уровне символов соответствуют базовым стандартам классификации. Всегда уточняйте условия лицензии, поскольку некоторые наборы данных для распознавания текста предназначены только для исследований или требуют регистрации.

Какие наборы данных для оптического распознавания текста (OCR) лучше всего подходят для документов и форм?

Наборы данных для оптического распознавания текста в документах используются для обучения моделей разбора структурированных страниц, таких как счета-фактуры, формы, квитанции и удостоверения личности. Они обеспечивают автоматизацию обработки деловых документов и извлечение ключевых значений.

  1. ФУНСД — 199 аннотированных отсканированных форм с шумом, имитирующими реальные условия. Стандартный эталон для понимания форм и извлечения ключевых значений.
  2. SROIE — Набор данных отсканированных чеков ICDAR 2019, содержащий примерно 1,000 чеков, поддерживающий обнаружение текста, распознавание и извлечение информации в одном наборе.
  3. CORD — Объединенный набор данных чеков, созданный для последующего анализа с помощью оптического распознавания символов, с подробными метками на уровне полей для автоматизации обработки счетов и чеков.
  4. XFUND — Многоязычное расширение FUNSD, охватывающее семь языков (немецкий, испанский, французский, итальянский, японский, португальский, китайский), по 199 страниц на каждом. Идеально подходит для создания многоязычных документов с использованием искусственного интеллекта.
  5. ДДИ-100 — Около 100 000 искаженных изображений документов для обнаружения и распознавания в условиях реального искажения, такого как перекос, размытие и шум.

Какие наборы данных для распознавания текста на изображениях являются наилучшими?

Наборы данных Scene-text OCR обучают модели распознаванию текста на естественных изображениях, таких как вывески, товары и уличные сцены. Они необходимы для распознавания текста в естественных условиях, где фон загроможден.

  1. Надежное чтение ICDAR — Это семейство эталонных задач, лежащих в основе большинства исследований контекстного текста, включая задачи Focused Scene Text и Incidental Scene Text с использованием ограничивающих рамок на уровне слов и транскрипций.
  2. COCO-текст — Крупномасштабные текстовые аннотации, наложенные на изображения MS-COCO. Эффективен для обнаружения текста в больших масштабах в естественных условиях.
  3. Полный текст — Специализируется на обработке изогнутого и произвольно ориентированного текста, что является известным слабым местом старых моделей распознавания текста.
  4. SVT (Street View Text) — Изображения текста, полученные из Google Street View, часто имеют низкое разрешение и отличаются высокой вариативностью. Доступны через зеркала Papers with Code.
  5. HierText — Иерархическая аннотация от абзаца к строке и к слову, охватывающая как рукописный, так и печатный текст. Полезно для распознавания текста с учетом макета.

Какие наборы данных для оптического распознавания цифр и символов являются наилучшими?

Наборы данных, содержащие цифровые и символьные данные, используемые для оптического распознавания текста, обучают модели распознаванию отдельных символов в контролируемых условиях. Это стандартные отправные точки для базовых моделей классификации.

  1. МНИСТ — 70 000 изображений рукописных цифр в оттенках серого. Самый быстрый базовый тест для проверки классификатора цифр.
  2. ЭМНИСТ — Расширяет базу данных MNIST за счет 814 255 рукописных букв и цифр, полученных из специальной базы данных NIST 19.
  3. SVHN (Номера домов в режиме просмотра улиц) — Более 600 000 реальных изображений цифр номеров домов. Практический шаг вперед по сравнению с MNIST для работы в условиях шума.
  4. Chars74K — 74 107 изображений, содержащих символы английского и каннадского языков, полученные из естественных изображений и компьютерных шрифтов.
  5. Специальная база данных NIST 19 — Более 810 000 изображений символов, напечатанных вручную 3,600 авторами. Источник, на котором основаны многие эталонные показатели распознавания текста на английском языке.

Какие наборы данных рукописного текста лучше всего подходят для оптического распознавания текста (OCR)?

Наборы данных рукописного текста используются для обучения моделей оптического распознавания символов (OCR) чтению курсивного, печатного и исторического рукописного текста. Самые сильные открытые наборы данных рукописного текста остаются наиболее часто цитируемыми эталонами для распознавания рукописного текста (HTR).

  1. База данных почерка IAM — Английский почерк — эталон, включающий 13 353 текстовые строки от 657 авторов. По-прежнему самый цитируемый набор данных почерка в исследованиях OCR 2024–2025 годов.
  2. IAM-OnDB — Онлайн-версия IAM для распознавания движений пера, собирающая данные о траектории. Канонический набор данных для распознавания рукописного ввода с помощью стилуса и планшета.
  3. Документы Бентама — Расшифрованные исторические английские рукописи философа Джереми Бентама. Ведущий эталон для распознавания исторического почерка, доступный через Transkribus.
  4. GNHK (GoodNotes Handwriting Kollection) — Набор данных 2021 года, содержащий неструктурированные рукописные заметки на английском языке из реальной жизни. Ближе к неструктурированным производственным данным, чем к идеально чистым данным IAM.

Какие многоязычные и нелатинские наборы данных для оптического распознавания символов являются лучшими?

 

Многоязычные наборы данных для оптического распознавания символов (OCR) обучают модели на языках, отличных от английского, включая китайский, арабский и математическую нотацию. Они необходимы для глобального распознавания документов и рукописного текста.

  1. CASIA-HWDB — Стандартный китайский эталон распознавания текста (OCR), основанный на 1.17 миллионах образцов рукописных символов от 1,020 авторов.
  2. ХАТТ — 1,000 рукописных арабских текстов от 1,000 разных авторов, отсканированных с разным разрешением. Самый полный открытый набор данных OCR для арабского языка.
  3. КРОМ — Конкурс по распознаванию рукописных математических выражений в режиме онлайн: более 10 000 выражений, содержащих более 101 математического символа, как в онлайн, так и в офлайн-вариантах. Незаменим для распознавания рукописных уравнений.

Какие распространенные ошибки допускаются при использовании бесплатных наборов данных для оптического распознавания текста?

Большинство команд попадают в ловушку трех основных ловушек.

Несоответствие доменов: Обучение на чистых данных IAM или COCO-Text и развертывание на смятых счетах-фактурах гарантирует низкую точность.

Лицензионная слепота: Некоторые наборы данных оптического распознавания текста и исторических данных предназначены только для исследовательских целей или требуют регистрации перед коммерческим использованием.

Пробелы в аннотациях: Во многих наборах данных OCR отсутствуют метаданные макета, ограничивающие рамки на уровне строк или метки полей, необходимые для производственных систем.

Представьте себе логистическую компанию среднего размера, автоматизирующую чтение транспортных этикеток. Обучение на основе общедоступных текстовых сценариев позволяет им достичь 80% точности по контрольным показателям, но реальные этикетки с бликами и сгибами снижают точность до 58%. Для устранения этого разрыва потребовались целенаправленные меры. аннотация данных из 6,000 изображений меток в рамках предметной области до запуска.

Преимущества и проблемы наборов данных с открытым исходным кодом

Преимущества и проблемы использования наборов данных с открытым исходным кодом

Предприятиям необходимо сравнить преимущества и проблемы друг с другом, чтобы понять, должны ли они выбирать бесплатные данные для своих приложений машинного обучения.

Преимущества

  • Данные легко доступны для доступа. Благодаря доступности данных стоимость разработки приложения значительно снижается.
  • Время и усилия, затрачиваемые на сбор данных для приложения, значительно сокращаются, поскольку набор данных легко доступен.
  • Существует множество форумов сообщества или групп помощи, которые помогают изучать, адаптировать и оптимизировать набор данных.
  • Одним из основных преимуществ набора данных с открытым исходным кодом является то, что он не накладывает никаких ограничений на настройку.
  • Данные из открытых источников доступны для значительной части населения, что делает возможным анализ и инновации без денежных барьеров.

Задачи

  • Данные, специфичные для проекта, трудно получить. Кроме того, существует вероятность отсутствия информации и неправильного использования имеющихся данных.
  • Получение закрытых данных требует времени, усилий и стоит дорого.
  • Хотя получение данных может быть проще, затраты на знания и анализ могут перевесить первоначальное преимущество.
  • Другие разработчики также используют те же данные для разработки приложений.
  • Эти наборы данных очень уязвимы для нарушений безопасности, конфиденциальности и согласия.

Как Shaip поддерживает проекты по распознаванию текста и рукописного ввода?

Шайпа сервисы обучающих данных для распознавания текста сочетайте курирование открытых наборов данных с индивидуальным подходом. сбор данных Обработка текста осуществляется на более чем 60 языках, охватывая печатные документы, рукописный текст, квитанции и удостоверения личности. Рабочие процессы аннотирования Shaip добавляют те уровни, которые отсутствуют в общедоступных наборах данных OCR: ограничивающие рамки на уровне строк, метки на уровне полей, контроль качества транскрипции и метаданные автора.

Заключение

Представленные выше 22 набора данных OCR обеспечивают вам полную открытую основу для распознавания документов, текста на экране, цифр, рукописного текста и многоязычных данных к 2026 году. Начните с набора данных OCR, соответствующего вашему типу текста и среде захвата, проверьте его на отложенной выборке ваших реальных данных и заложите в бюджет средства на пользовательскую аннотацию, чтобы устранить пробел в предметной области. Такая комбинация будет реализована быстрее, чем создание с нуля.

Выбор лучшего бесплатного набора данных для распознавания текста зависит от задачи. ICDAR Robust Reading лидирует в области распознавания текста на страницах, FUNSD и SROIE — в области распознавания текста на документах и ​​чеках, а IAM — в области распознавания рукописного текста. Для распознавания цифр стандартными являются MNIST и SVHN. Большинство команд объединяют два или три набора данных для распознавания текста из разных категорий, а не полагаются на один.

Не все открытые наборы данных для распознавания текста бесплатны для коммерческого использования. MNIST, SVHN и COCO-Text используют разрешительные лицензии, в то время как IAM, наборы данных ICDAR и исторические наборы данных рукописного текста часто требуют регистрации или ограничивают использование исследовательскими целями. Всегда проверяйте лицензию каждого набора данных перед обучением коммерческой модели.

Наборы данных OCR охватывают все виды распознавания машиночитаемого текста, включая печатные документы, текст на экране и цифры, в то время как наборы данных рукописного ввода представляют собой подмножество, ориентированное на рукописный контент. Наборы данных рукописного ввода, такие как IAM и Bentham, используются для обучения моделей HTR, тогда как наборы данных OCR для документов и текста на экране обрабатывают печатный текст и текст, встречающийся в естественной среде.

Многоязычные наборы данных для распознавания текста включают XFUND для семи языков форм, CASIA-HWDB для китайского, KHATT для арабского и ICDAR MLT для многоязычного текста сцен. Сочетание наборов данных для распознавания текста, специфичных для различных языков, с синтетическим расширением обычно превосходит обучение на любом отдельном наборе данных.

Потребности в индивидуальной аннотации зависят от того, насколько ваши документы отличаются от общедоступных данных. Для чистых печатных форм может потребоваться 1,000–5,000 образцов из соответствующей области данных, в то время как для неразборчивого почерка, квитанций или редких шрифтов часто требуется 10 000–50 000 образцов. Конвейеры аннотации Shaip обычно обеспечивают повышение точности на 15–30% по сравнению с обучением OCR только на общедоступных данных.

Понравилась статья? Подпишитесь на Шаипа в LinkedIn, чтобы получать больше новостей.

Социальная Поделиться