Открытые наборы данных

Откройте для себя наборы данных с открытым исходным кодом, которые помогут вам обучать модели машинного обучения

Наборы данных с открытым исходным кодом для начала работы с моделями AI / ML

Результаты ваших моделей AI и ML настолько хороши, насколько хороши данные, которые вы используете для их обучения, поэтому важна точность, которую вы применяете к агрегированию данных, а также к тегированию и идентификации этих данных!

Итак, если вы хотите начать новую инициативу AI / ML и теперь быстро понимаете, что поиск высококачественных данных обучения будет одним из наиболее сложных аспектов вашего проекта, поскольку высококачественные наборы данных являются топливом, которое поддерживает AI / Двигатель ML работает. Мы собрали список открытых наборов данных, которые можно бесплатно использовать и обучать вашим моделям AI / ML будущего.

Специализация	Тип данных	Название набора данных	Промышленность / Департамент.	Аннотация / вариант использования	Описание	Ссылка
НЛП	Текст	Amazon отзывы	Электронная коммерция	Анализ настроений	Набор из 35 миллионов отзывов и оценок за последние 18 лет в виде простого текста с подробностями о пользователях и продуктах.	Ссылка
НЛП	Текст	Данные о ссылках на Википедию	Общие		Более 4 млн. статьи, содержащие 1.9 млрд руб. слово, состоящее из слов и фраз, а также абзацев.	Ссылка
НЛП	Текст	Стэнфордское дерево настроений	Развлечения	Анализ настроений	Набор данных аннотаций настроений для более чем 10,000 XNUMX обзоров от Rotten Tomatoes в формате HTML	Ссылка
НЛП	Текст	Twitter настроения авиакомпаний США	Авиакомпания	Анализ настроений	2015 г. Твиты об авиалиниях США раздвоены на положительные, отрицательные и нейтральные тона	Ссылка
CV	Фото товара	Маркированные лица в дикой природе	Общие	Признание лица	Набор данных, содержащий более 13,000 XNUMX обрезанных лиц с двумя разными изображениями для обучения распознаванию лиц.	Ссылка
CV	Видео, Изображение	Набор данных UMDFaces	Общие	Признание лица	Аннотированный набор данных, содержащий более 367,000 8,000 лиц более XNUMX XNUMX субъектов, включая фото и видео.	Ссылка
CV	Фото товара	Имиджнет	Общие		Набор данных с более чем 14 млн. изображения в файлах различных форматов, организованные в соответствии с иерархией WordNet.	Ссылка
CV	Фото товара	Открытые изображения Google	Общие		9 Мн. URL-адреса для категоризации общедоступных изображений из более чем 6,000 категорий.	Ссылка
НЛП	Текст	База данных MIMIC Critical Care	Здоровье		Наборы данных вычислительной физиологии с обезличенными данными от 40,000 XNUMX пациентов интенсивной терапии. Набор данных содержит такую информацию, как демографические данные, показатели жизнедеятельности, лекарства и т. Д.	Ссылка
CV	Фото товара	Национальное бюро путешествий и туризма США	Туризм		Предоставляет обширные фотографии из индустрии туризма с надежными базами данных, охватывающими такие темы, как въездные и выездные путешествия и международная туристическая информация.	Ссылка
НЛП	Текст	Отдел транспорта	Туризм		Наборы данных о туризме, которые включают национальные парки, реестры водителей, информацию о мостах, железных дорогах и т. Д.	Ссылка
НЛП	Аудио	Корпус Flickr Audio Caption Corpus	Общие		Более 40 тысяч озвученных подписей из 8,000 фотографий, разработанных для неконтролируемых речевых образов.	Ссылка
НЛП	Аудио	Набор данных речевых команд	Общие	Распознавание речи, аудиоаннотации	Односекундные высказывания тысяч людей для создания базового голосового интерфейса.	Ссылка
НЛП	Аудио	Наборы данных звукового окружения	Общие		Наборы аудиоданных среды, содержащие звуковые таблицы событий и таблицы акустических сцен.	Ссылка
НЛП	Текст	COVID-19 Набор данных открытых исследований	Здоровье	Медицинский ИИ	Набор исследовательских данных, состоящий из 45,000 19 научных статей о COVID-XNUMX и вирусном семействе коронавирусов.	Ссылка
CV	Фото товара	Waymo Открытый набор данных	Автомобильная		Самые разнообразные наборы данных об автономном вождении, выпущенные Waymo	Ссылка
CV	Фото товара	Визуальный геном	Общие	Подписи к изображениям	Визуальная база знаний с подробными субтитрами для более 100 тысяч изображений.	Ссылка
CV	Фото товара	Метка	Общественное правительство		Большой набор аннотированных изображений, доступных через Labelme Matlab	Ссылка
CV	Фото товара	КАТУШКА100	Общие		Более 100 разнообразных объектов, сфотографированных под разными углами (например, 360 градусов)	Ссылка
CV	Фото товара	Набор данных Stanford Dogs	Общие		Более 20,500 120+ изображений, сгруппированных в набор изображений XNUMX различных пород собак.	Ссылка
CV	Фото товара	Распознавание сцены в помещении	Общие	Распознавание сцены	Специальный набор данных, состоящий из 15620 изображений из 67 категорий помещений для построения моделей распознавания сцен.	Ссылка
CV	Фото товара	визуальный контроль качества	Общие		Набор данных, который включает открытые вопросы по 265,016 XNUMX фотографиям, для ответа на которые требуется понимание зрения и понимание языка.	Ссылка
НЛП	Текст	Набор данных многодоменного анализа настроений	Электронная коммерция	Анализ настроений	Набор данных, содержащий обзоры продуктов с Amazon	Ссылка
НЛП	Текст	IMDB Отзывы	Развлечения	Анализ настроений	Набор данных, содержащий 25000 обзоров фильмов для анализа настроений	Ссылка
НЛП	Текст	Настроение140	Общие	Анализ настроений	Набор данных, содержащий 160,000 твитов с предварительно удаленными смайликами для большей точности	Ссылка
НЛП	Текст	Корпус блоггера	Общие	Анализ ключевых слов	Набор данных, содержащий 681,288 200 сообщений блога с blogger.com, состоящий как минимум из XNUMX вхождений широко используемых английских слов.	Ссылка
НЛП	Текст	Опасность	Общие	Обучение чат-бота	Набор данных с более чем 200,000 XNUMX вопросов, которые можно использовать для обучения моделей машинного обучения умным автоматическим ответам.	Ссылка
НЛП	Текст	Сборник SMS-спама на английском языке	Телеком	Распознавание спама	Набор данных спам-сообщений, состоящий из 5,574 XNUMX SMS на английском языке.	Ссылка
НЛП	Текст	Yelp Отзывы	Общие	Анализ настроений	Набор данных с более чем 5-миллионным обзором, опубликованный Yelp	Ссылка
НЛП	Текст	Спамбаза UCI	Предприятие	Распознавание спама	Большой набор данных спама, полезный для фильтрации спама.	Ссылка
CV	Видео, Изображение	Беркли DeepDrive BDD100k	Автомобильная	Автономные транспортные средства	Один из крупнейших наборов данных для искусственного интеллекта с автономным управлением, содержащий 1,100 часов опыта вождения в более чем 100,000 видеороликов из Нью-Йорка и Сан-Франциско, снятых в разное время суток.	Ссылка
CV	Видео	Запятая.ai	Автомобильная	Автономные транспортные средства	Набор данных за 7 часов вождения по шоссе, содержащий информацию о скорости автомобиля, ускорении, угле поворота и координатах GPS.	Ссылка
CV	Видео, Изображение	Набор данных городского пейзажа	Автомобильная	Семантическая метка для автономного транспортного средства	Набор данных из 5,000 аннотаций на уровне пикселей плюс более крупный набор из 20,000 слабо аннотированных кадров в стереовидеопоследовательностях, записанных из 50 разных городов.	Ссылка
CV	Фото товара	Набор данных дорожных знаков KUL Belgium	Автомобильная	Автономные транспортные средства	Более 10000+ аннотаций дорожных знаков из региона Фландрия на основе физически различных дорожных знаков со всей Бельгии.	Ссылка
CV	Фото товара	LISA: Лаборатория интеллектуальных и безопасных автомобилей, UC San Diego Datasets	Автомобильная	Автономные транспортные средства	Богатый набор данных, содержащий дорожные знаки, средства обнаружения транспортных средств, светофоры и схемы траектории.	Ссылка
CV	Фото товара	СИФАР-10	Общие	Распознавание объектов	Набор данных, состоящий из 50,000 10,000 изображений и 60,000 32 тестовых изображений (т.е. 32 10 цветных изображений XNUMX × XNUMX в XNUMX классах) для распознавания объектов.	Ссылка
CV	Фото товара	Мода MNIST	Мода		Набор данных изображения, состоящий из 60,000 10,000 примеров и тестовый набор из 28 28 примеров в полутоновых изображениях 10 × XNUMX, связанных с меткой из XNUMX классов.	Ссылка
CV	Фото товара	Набор данных IMDB-Wiki	Развлечения	Признание лица	Большой набор изображений лиц с такими метками, как пол и возраст. Из общего количества 523,051 460,723 изображения лиц 20,284 62,328 изображения получены от XNUMX XNUMX знаменитостей из IMDB и XNUMX XNUMX из Википедии.	Ссылка
CV	Видео	Кинетика-700	Общие		Для каждого класса действий высококачественный набор данных состоит из 650,000 700 видеоклипов и включает 600 классов действий человека с как минимум 10 видеоклипами. Здесь каждый клип длится около XNUMX секунд.	Ссылка
CV	Фото товара	МС Коко	Общие	Обнаружение объектов, сегментация	Набор данных содержит 328 тыс. Изображений и в общей сложности 2.5 млн экземпляров и 91 изображение объектов для обучения крупномасштабным моделям машинного обучения, связанным с обнаружением, сегментацией и субтитрами данных.	Ссылка
CV	Фото товара	Набор данных позы человека MPII	Общие		Около 25 тысяч фотографий, содержащих более 40 тысяч людей с аннотированными суставами тела, включены в набор данных, который используется для оценки позы человека. В целом набор данных охватывает 410 человеческих действий, и каждое изображение снабжено меткой активности.	Ссылка
CV	Фото товара	Открытые изображения	Общие	Аннотации местоположения объекта	Набор данных изображений, содержащий около 9 миллионов изображений, аннотированных метками уровня изображения, ограничивающими рамками объектов, сегментацией объектов и т. Д. Набор данных также состоит из 16 миллионов изображений. ограничивающие рамки для 600 классов объектов на 1.9 млн изображений.	Ссылка
CV	Видео	Открытая платформа Apollo, Baidu Inc, Китай	Автомобильная	Граничная коробка, LiDAR	Богатый набор данных по автономному вождению, который предоставляет разработчикам необходимые данные по автономному вождению, чтобы повысить эффективность инновационной итерации.	Ссылка
CV	Видео, Изображение	Арго, Арго, США	Автомобильная	Граничная рамка, оптический поток, поведенческая метка, семантическая метка, маркировка полосы движения	Набор данных для самостоятельного вождения, который состоит из HD-карт с геометрическими и семантическими метаданными, то есть осевыми линиями полос движения, направлением полосы движения и зоной проезда. Набор данных используется для обучения моделей машинного обучения, для создания более точных алгоритмов восприятия, которые помогут беспилотным транспортным средствам безопасно ориентироваться.	Ссылка
CV	Видео	Малые светофоры Bosch, исследование Bosch North America	Автомобильная	Ограничительная рамка	Набор данных, состоящий из 13427 изображений с камеры с разрешением 1280 * 720 для создания системы обнаружения светофора на основе технического зрения. Набор данных содержит более 24000 аннотированных светофоров.	Ссылка
CV	Видео	Brain4Cars, Корнельский университет, США	Автомобильная	Поведенческий ярлык	Набор данных, состоящий из массива датчиков кабины (камеры, тактильные датчики, интеллектуальные устройства и т. Д.) Для извлечения полезной статистики о бдительности водителя. Наши алгоритмы могут обнаруживать сонливых или рассеянных водителей и активировать необходимые сигналы тревоги для улучшения защиты.	Ссылка
CV	Фото товара	CULane, китайский Univ. Гонконга, Пекина, Китая	Автомобильная	Разметка полосы движения	Набор данных компьютерного зрения по обнаружению полосы движения, состоящий из 55 часов видео, из которых были извлечены 133,235 88880 кадров (9675 обучающих наборов, 34680 проверочных наборов и XNUMX тестовых наборов). Его собирают камеры, установленные на шести разных автомобилях, которыми управляют разные водители в Пекине.	Ссылка
CV	Видео	ДЭВИС, Univ. Цюриха, ETH ¨ Цюрих, Германия, Швейцария	Автомобильная		Комплексный набор данных для обучения вождению автомобиля, в котором используется камера DAVIS event + frame. Данные автомобиля, такие как рулевое управление, дроссельная заслонка, GPS и т. Д., Используются для оценки слияния данных кадра и событий для автомобильных приложений.	Ссылка
CV	Видео	DBNet, Шанхайский университет Цзяо Тонг, Сямэньский университет, Китай	Автомобильная	Облако точек, LiDAR	Реальные данные о движении на 1000 км, которые включают согласованное видео, облако точек, GPS и поведение водителя для углубленного исследования поведения водителя.	Ссылка
CV	Видео	Доктор (глаз) ве, Univ. Модены и Реджо-Эмилия, Модена, Италия	Автомобильная	Поведенческий ярлык	Набор данных, содержащий 74 видеопоследовательности по 5 минут каждая, с аннотациями более 500,000 XNUMX кадров. Набор данных состоит из местоположений с географической привязкой, скорости движения, курса, а также меток фиксации взгляда водителей и их временной интеграции с предоставлением карт для конкретных задач.	Ссылка
CV	Видео	ETH Pedestrian (2009), ETH Zurich, Цюрих, Швейцария	Общие	Ограничительная рамка	Набор данных из 74 видеопоследовательностей по 5 минут каждая, аннотированных более чем 500,000 XNUMX кадров. Набор данных обеспечивает географическую привязку местоположения, скорости движения, направления, а также отмечает фиксацию взгляда для водителей и их временную интеграцию, включая карты для конкретных задач.	Ссылка
CV	Видео	Форд (2009), Univ. Мичиган, Мичиган, США	Автомобильная	Граничная коробка`` LiDAR	Набор данных, собранный автоматизированным наземным транспортным средством, оснащенным 3D-лидарным сканером Velodyne, двумя передовыми лидарами Rieg с метлами, техническим и потребительским инерциальным измерительным устройством (IMU) и системой всенаправленной камеры Point Grey Ladybug3.	Ссылка
CV	Видео	HCI Challenging Stereo, Bosch Corporation Research, Хильдесхайм, Германия	Общие		Набор данных из нескольких миллионов кадров из захваченных видеосцен, которые включают широкий спектр различных погодных условий, несколько уровней движения и глубины; ситуации в городе и деревне и т. д.	Ссылка
CV	Видео	JAAD, Йоркский университет, Украина, Канада	Автомобильная	Граничная рамка, Поведенческая этикетка	«JAAD - это набор данных для изучения совместного внимания в контексте автономного вождения. Основное внимание уделяется поведению пешеходов и водителей в точке перехода и факторам, которые на них влияют. Для этого набор данных JAAD предоставляет богато аннотированную коллекцию из 346 коротких видеороликов. клипы (длительностью 5–10 секунд), извлеченные из более чем 240 часов видеозаписей вождения из нескольких мест в Северной Америке и Восточной Европе. Граничные рамки с тегами загораживания используются для всех пешеходов, что делает этот набор данных подходящим для обнаружения пешеходов. Поведенческие аннотации определяют поведение пешеходов которые взаимодействуют с водителем или требуют внимания со стороны водителя. Для каждого видео есть несколько тегов (погода, местоположение и т. д.) и метки поведения с отметками времени (например, остановка, ходьба, поиск и т. д.). Кроме того, есть список демографических атрибутов. для каждого пешехода (например, возраст, пол, направление движения и т. д.), а также список видимых элементов сцены дорожного движения (например, знак остановки, светофор и т. д.) в каждом кадре ".	Ссылка
CV	Видео	KAIST Urban, KAIST, Южная Корея	Общие	LiDAR	Сбор данных включает в себя многочисленные датчики местоположения для данных LiDAR и стереоизображений, нацеленных на очень сложную городскую территорию (например, мегаполисы, сложные здания и жилые районы).	Ссылка
CV	Фото товара	Дорожный знак LISA, Univ. Калифорнии, Сан-Диего, США	Автомобильная	Ограничительная рамка	Набор данных, содержащий видео и аннотированные кадры, содержащие дорожные знаки США. Он выпускается в два этапа: один - только с изображениями, а второй - с изображениями и видео.	Ссылка
CV	Фото товара	Mapillary Vistas от Mapillary AB, Global	Автомобильная	Семантическая метка	Набор данных фотографии улиц для интерпретации уличных сцен по всему миру с помощью человеческих аннотаций с точностью до пикселя и конкретных экземпляров.	Ссылка
CV	Видео, Изображение	Семантический KITTI, Боннский университет, Карлсруэ, Германия	Автомобильная	Граничная рамка, семантическая метка, разметка полосы движения	Набор данных, который включает семантическую аннотацию для всех последовательностей Odometry Benchmark. Набор данных аннотирует различные типы движущегося и неподвижного трафика: включая автомобили, велосипеды, велосипеды, пешеходов и велосипедистов, что позволяет изучать объекты на сцене.	Ссылка
CV	Видео	Stanford Track, Стэнфордский университет, США	Автомобильная	Обнаружение / классификация объектов LiDAR, GPS, коды	Набор данных, включающий 14,000 маркированных дорожек объектов, наблюдаемых лидаром Velodyne HDL-64E S2 в естественных уличных сценах, который можно использовать для обучения моделей машинного обучения распознаванию трехмерных объектов.	Ссылка
CV	Видео, Изображение	Набор данных Boxy, Bosch, США	Автомобильная	Ограничивающая рамка / обнаружение транспортных средств	Набор данных обнаружения транспортных средств, содержащий 2 миллиона аннотированных транспортных средств для обучения и анализа стратегий распознавания объектов для беспилотных автомобилей на автомагистралях.	Ссылка
CV	Видео	Автомагистраль TME, Чешский технический университет, Северная Италия	Автомобильная	Ограничительная рамка	Набор данных из 28 клипов общей продолжительностью 27 минут, разделенных на более чем 30,000 XNUMX фреймов аннотаций для транспортных средств. Аннотации производились полуавтоматически с использованием данных лазерного сканера. Этот сбор данных включает в себя различные сценарии движения, количество полос движения, кривизну дороги и освещенность, охватывая большую часть условий полного сбора данных.	Ссылка
CV	Видео	Ламы без присмотра, компания Bosch, США	Автомобильная	Разметка полосы движения, LiDAR	Набор данных неконтролируемых лам был аннотирован путем создания автоматических карт вождения с высоким разрешением, включая маркеры полос движения на основе лидаров. Автономное транспортное средство можно сопоставить с этими картами, и разметка полос проецируется на рамку камеры. 3D-проекция оптимизирована за счет минимизации расхождений между уже наблюдаемыми и предсказанными маркерами изображения.	Ссылка
НЛП	Аудио	Facebook AI Многоязычный LibriSpeech (MLS)	Общие	Аудиоаннотации / Распознавание речи	Facebook AI Multilingual LibriSpeech (MLS) - это крупномасштабный набор данных с открытым исходным кодом, предназначенный для содействия исследованиям в области автоматического распознавания речи (ASR). MLS обеспечивает более 50,000 8 часов аудио на XNUMX языках: английском, немецком, голландском, французском, испанском, итальянском, португальском и польском.	Ссылка

Открытые наборы данных

Наборы данных с открытым исходным кодом для начала работы с моделями AI / ML

Службы данных AI

Специальность

Промышленный дизайн

Продукция

Компания

Полезные ресурсы

Свяжитесь с нами