Компьютерное зрение

22+ самых популярных набора данных с открытым исходным кодом для компьютерного зрения

Алгоритм ИИ хорош настолько, насколько хороши данные, которые вы ему предоставляете.

Это ни смелое, ни нетрадиционное заявление. Пару десятков лет назад искусственный интеллект мог показаться чем-то надуманным, но с тех пор искусственный интеллект и машинное обучение прошли очень долгий путь.

Компьютерное зрение помогает компьютерам понимать и интерпретировать этикетки и изображения. Когда вы обучаете свой компьютер, используя изображения правильного типа, он может получить возможность обнаруживать, понимать и идентифицировать различные черты лица, выявлять болезни, управлять автономными транспортными средствами, а также спасать жизни с помощью многомерного сканирования органов.

Ожидается, что рынок компьютерного зрения достигнет $ 144.46 Billion к 2028 году со скромных 7.04 миллиарда долларов в 2020 году, увеличившись в среднем на 45.64% в период с 2021 по 2028 год.

Некоторые из вариантов использования компьютерного зрения:

  • Медицинская визуализация
  • Автономное транспортное средство
  • Распознавание лиц и объектов
  • Идентификация дефекта
  • Обнаружение сцены

Ассоциация набор данных изображения вы кормите и тренируете свои задачи машинного обучения и компьютерного зрения, которые имеют решающее значение для успеха вашего проекта ИИ. Качественный набор данных довольно сложно получить. В зависимости от сложности вашего проекта, получение надежных и релевантных наборов данных для целей компьютерного зрения может занять от нескольких дней до нескольких недель.

Здесь мы предоставим вам ряд наборов данных с открытым исходным кодом (разделенных на категории для вашего удобства), которые вы можете использовать прямо сейчас.

Полный список наборов данных компьютерного зрения

Генеральная:

  1. IMAGEnet (Ссылка)

    ImageNet — это широко используемый набор данных, содержащий 1.2 миллиона изображений, разделенных на 1000 категорий. Этот набор данных организован в соответствии с иерархией WorldNet и разделен на три части: данные обучения, метки изображений и данные проверки.

  2. Кинетика 700 (Ссылка)

    Kinetics 700 — это огромный высококачественный набор данных, содержащий более 650,000 700 клипов 700 различных классов действий человека. Каждая из групповых акций насчитывает около XNUMX видеороликов. Клипы в наборе данных имеют взаимодействия человека с объектом и человека с человеком, которые оказываются весьма полезными при распознавании действий человека в видео.

  3. СИФАР-10 (Ссылка)

    CIFAR 10 — один из крупнейших наборов данных компьютерного зрения, содержащий 60000 32 цветных изображений 32 x 6000, представляющих десять различных классов. В каждом классе около XNUMX изображений, используемых для обучения алгоритмов компьютерного зрения и машинного обучения.

Распознавание лиц:

Распознавание лица

  1. Маркированные лица в дикой природе (Ссылка)

    Labeled Faced in the Wild представляет собой огромный набор данных, содержащий более 13,230 5,750 изображений почти XNUMX человек, обнаруженных в Интернете. Этот набор данных о лицах разработан, чтобы упростить изучение неограниченного обнаружения лиц.

  2. КАСИА ВебФейс (Ссылка)

    CASIA Web face — это хорошо продуманный набор данных, который помогает машинному обучению и научным исследованиям в области неограниченного распознавания лиц. Имея более 494,000 10,000 изображений почти XNUMX XNUMX реальных личностей, он идеально подходит для задач идентификации и проверки лиц.

  3. Набор данных лиц UMD (Ссылка)

    UMD сталкивается с хорошо аннотированным набором данных, который состоит из двух частей — неподвижных изображений и видеокадров. Набор данных содержит более 367,800 3.7 аннотаций лиц и XNUMX млн ​​аннотированных видеокадров объектов.

Распознавание рукописного ввода:

  1. База данных МНИСТ (Ссылка)

    MNIST — это база данных, содержащая образцы рукописных цифр от 0 до 9, а также 60,000 10,000 и 1999 XNUMX обучающих и тестовых изображений. Выпущенный в XNUMX году, MNIST упрощает тестирование систем обработки изображений в глубоком обучении.

  2. Набор данных искусственных персонажей (Ссылка)

    Набор данных Artificial Characters — это, как следует из названия, искусственно сгенерированные данные, которые описывают структуру английского языка десятью заглавными буквами. Он поставляется с более чем 6000 изображений.

Давайте сегодня обсудим ваши требования к данным для обучения ИИ.

Обнаружение объекта:

  1. МС КОКО (Ссылка)

    MS COCO или Common Objects in Context — это набор данных для обнаружения объектов и подписей.

    Он содержит более 328,000 80 изображений с обнаружением ключевых точек, обнаружением нескольких объектов, подписями и аннотациями маски сегментации. Он поставляется с XNUMX категориями объектов и пятью подписями к изображению.

  2. ЛСУН(Ссылка)

    LSUN, сокращение от «Понимание крупномасштабных сцен», содержит более миллиона помеченных изображений в 20 категориях объектов и 10 сцен. Некоторые категории содержат около 300,000 300 изображений, из них 1000 изображений специально для проверки и XNUMX изображений для тестовых данных.

  3. Домашние объекты(Ссылка)

    Набор данных Home Objects содержит аннотированные изображения случайных объектов со всего дома — кухни, гостиной и ванной комнаты. Этот набор данных также содержит несколько аннотированных видео и 398 неаннотированных фотографий, предназначенных для тестирования.

Автомобили:

  1. Набор данных городского пейзажа (Ссылка)

    Cityscape — это набор данных, к которому нужно обращаться при поиске различных видеофрагментов, записанных с уличных сцен нескольких городов. Эти изображения были сняты в течение длительного времени и в различных погодных и световых условиях. Аннотации предназначены для 30 классов изображений, разделенных на восемь различных категорий.

  2. Баркли Дип Драйв (Ссылка)

    Barkley DeepDrive специально разработан для обучения беспилотным автомобилям и содержит более 100 тысяч аннотированных видеофрагментов. Это одна из самых полезных обучающих данных для автономных транспортных средств при изменении дорожных условий и условий вождения.

  3. Мапиллярный (Ссылка)

    Mapillary содержит более 750 миллионов уличных сцен и дорожных знаков по всему миру, что очень полезно для обучения моделей визуального восприятия в алгоритмах машинного обучения и искусственного интеллекта. Это позволяет разрабатывать автономные транспортные средства, которые адаптируются к различным условиям освещения, погоде и точкам обзора.

Медицинская визуализация:

  1. Набор данных открытых исследований Covid-19 (Ссылка)

    Этот исходный набор данных содержит около 6500 полигональных сегментов легких в области переднезадней/переднезадней рентгенографии грудной клетки. Кроме того, доступны 517 изображений рентгеновских снимков пациентов с Covid-19 с тегами, содержащими имя, местонахождение, сведения о поступлении, исход и многое другое.

  2. База данных NIH из 100,000 XNUMX рентгенограмм грудной клетки (Ссылка)

    База данных NIH является одним из самых обширных общедоступных наборов данных, содержащих 100,000 XNUMX изображений рентгенограмм грудной клетки и связанных с ними данных, полезных для научного и исследовательского сообщества. В нем даже есть изображения пациентов с запущенными заболеваниями легких.

  3. Атлас цифровой патологии (Ссылка)

    Атлас цифровой патологии предлагает несколько изображений гистопатологических участков, всего более 17,000 100, из почти XNUMX аннотированных слайдов различных органов. Этот набор данных полезен при разработке программного обеспечения для компьютерного зрения и распознавания образов.

Распознавание сцены:

Распознавание сцен

  1. Распознавание сцены в помещении (Ссылка)

    Indoor Scene Recognition — это высококлассифицированный набор данных, содержащий около 15620 65 изображений объектов и внутренних пейзажей, которые можно использовать для машинного обучения и обучения данным. Он поставляется с более чем 100 категориями, и каждая категория имеет минимум XNUMX изображений.

  2. xView (Ссылка)

    Как один из самых известных общедоступных наборов данных, xView содержит множество аннотированных изображений сверху из различных сложных и больших сцен. Имея около 60 классов и более миллиона экземпляров объектов, цель этого набора данных — обеспечить лучшую помощь при стихийных бедствиях с использованием спутниковых изображений.

  3. Мест (Ссылка)

    Places, набор данных, предоставленный Массачусетским технологическим институтом, содержит более 1.8 миллиона изображений из 365 различных категорий сцен. В каждой из этих категорий есть около 50 изображений для проверки и 900 изображений для тестирования. Возможно изучение особенностей глубокой сцены для установления задач распознавания сцены или визуального распознавания.

Развлечения:

  1. Набор данных IMDB WIKI (Ссылка)

    IMDB — Wiki — одна из самых популярных общедоступных баз данных лиц, правильно помеченных по возрасту, полу и имени. Также в нем около 20 тысяч лиц знаменитостей и 62 тысячи из Википедии.

  2. Знаменитости Лица (Ссылка)

    Celeb Faces — это крупная база данных с 200,000 XNUMX аннотированных изображений знаменитостей. Изображения сопровождаются фоновым шумом и вариациями позы, что делает их полезными для обучающих наборов тестов в задачах компьютерного зрения. Это очень полезно для достижения более высокой точности распознавания лиц, редактирования, локализации частей лица и многого другого.

Теперь, когда у вас есть огромный список наборов данных изображений с открытым исходным кодом, которые подпитывают ваш механизм искусственного интеллекта. Результат ваших моделей искусственного интеллекта и машинного обучения зависит в первую очередь от качества наборов данных, которые вы предоставляете и на которых обучаете их. Если вы хотите, чтобы ваша модель ИИ выдавала точные прогнозы, ей нужны качественные наборы данных, которые агрегированы, помечены и помечены до совершенства. Чтобы усилить успех вашей системы компьютерного зрения, вы должны использовать качественные базы данных изображений, соответствующие видению вашего проекта. Если вы ищете больше таких наборов данных Кликните сюда

Социальная Поделиться

Вам также может понравиться