Открытые наборы данных
Откройте для себя наборы данных с открытым исходным кодом, которые помогут вам обучать модели машинного обучения
Наборы данных с открытым исходным кодом для начала работы с моделями AI / ML
Результаты ваших моделей AI и ML настолько хороши, насколько хороши данные, которые вы используете для их обучения, поэтому важна точность, которую вы применяете к агрегированию данных, а также к тегированию и идентификации этих данных!
Итак, если вы хотите начать новую инициативу AI / ML и теперь быстро понимаете, что поиск высококачественных данных обучения будет одним из наиболее сложных аспектов вашего проекта, поскольку высококачественные наборы данных являются топливом, которое поддерживает AI / Двигатель ML работает. Мы собрали список открытых наборов данных, которые можно бесплатно использовать и обучать вашим моделям AI / ML будущего.
Специализация | Тип данных | Название набора данных | Промышленность / Департамент. | Аннотация / вариант использования | Описание | Ссылка |
---|---|---|---|---|---|---|
НЛП | Текст | Amazon отзывы | Электронная коммерция | Анализ настроений | Набор из 35 миллионов отзывов и оценок за последние 18 лет в виде простого текста с подробностями о пользователях и продуктах. | Ссылка |
НЛП | Текст | Данные о ссылках на Википедию | Общие | Более 4 млн. статьи, содержащие 1.9 млрд руб. слово, состоящее из слов и фраз, а также абзацев. | Ссылка | |
НЛП | Текст | Стэнфордское дерево настроений | Развлечения | Анализ настроений | Набор данных аннотаций настроений для более чем 10,000 XNUMX обзоров от Rotten Tomatoes в формате HTML | Ссылка |
НЛП | Текст | Twitter настроения авиакомпаний США | Авиакомпания | Анализ настроений | 2015 г. Твиты об авиалиниях США раздвоены на положительные, отрицательные и нейтральные тона | Ссылка |
CV | Фото товара | Маркированные лица в дикой природе | Общие | Признание лица | Набор данных, содержащий более 13,000 XNUMX обрезанных лиц с двумя разными изображениями для обучения распознаванию лиц. | Ссылка |
CV | Видео, Изображение | Набор данных UMDFaces | Общие | Признание лица | Аннотированный набор данных, содержащий более 367,000 8,000 лиц более XNUMX XNUMX субъектов, включая фото и видео. | Ссылка |
CV | Фото товара | Имиджнет | Общие | Набор данных с более чем 14 млн. изображения в файлах различных форматов, организованные в соответствии с иерархией WordNet. | Ссылка | |
CV | Фото товара | Открытые изображения Google | Общие | 9 Мн. URL-адреса для категоризации общедоступных изображений из более чем 6,000 категорий. | Ссылка | |
НЛП | Текст | База данных MIMIC Critical Care | Здоровье | Наборы данных вычислительной физиологии с обезличенными данными от 40,000 XNUMX пациентов интенсивной терапии. Набор данных содержит такую информацию, как демографические данные, показатели жизнедеятельности, лекарства и т. Д. | Ссылка | |
CV | Фото товара | Национальное бюро путешествий и туризма США | Туризм | Предоставляет обширные фотографии из индустрии туризма с надежными базами данных, охватывающими такие темы, как въездные и выездные путешествия и международная туристическая информация. | Ссылка | |
НЛП | Текст | Отдел транспорта | Туризм | Наборы данных о туризме, которые включают национальные парки, реестры водителей, информацию о мостах, железных дорогах и т. Д. | Ссылка | |
НЛП | Аудио | Корпус Flickr Audio Caption Corpus | Общие | Более 40 тысяч озвученных подписей из 8,000 фотографий, разработанных для неконтролируемых речевых образов. | Ссылка | |
НЛП | Аудио | Набор данных речевых команд | Общие | Распознавание речи, аудиоаннотации | Односекундные высказывания тысяч людей для создания базового голосового интерфейса. | Ссылка |
НЛП | Аудио | Наборы данных звукового окружения | Общие | Наборы аудиоданных среды, содержащие звуковые таблицы событий и таблицы акустических сцен. | Ссылка | |
НЛП | Текст | COVID-19 Набор данных открытых исследований | Здоровье | Медицинский ИИ | Набор исследовательских данных, состоящий из 45,000 19 научных статей о COVID-XNUMX и вирусном семействе коронавирусов. | Ссылка |
CV | Фото товара | Waymo Открытый набор данных | Автомобильная | Самые разнообразные наборы данных об автономном вождении, выпущенные Waymo | Ссылка | |
CV | Фото товара | Визуальный геном | Общие | Подписи к изображениям | Визуальная база знаний с подробными субтитрами для более 100 тысяч изображений. | Ссылка |
CV | Фото товара | Метка | Общественное правительство | Большой набор аннотированных изображений, доступных через Labelme Matlab | Ссылка | |
CV | Фото товара | КАТУШКА100 | Общие | Более 100 разнообразных объектов, сфотографированных под разными углами (например, 360 градусов) | Ссылка | |
CV | Фото товара | Набор данных Stanford Dogs | Общие | Более 20,500 120+ изображений, сгруппированных в набор изображений XNUMX различных пород собак. | Ссылка | |
CV | Фото товара | Распознавание сцены в помещении | Общие | Распознавание сцены | Специальный набор данных, состоящий из 15620 изображений из 67 категорий помещений для построения моделей распознавания сцен. | Ссылка |
CV | Фото товара | визуальный контроль качества | Общие | Набор данных, который включает открытые вопросы по 265,016 XNUMX фотографиям, для ответа на которые требуется понимание зрения и понимание языка. | Ссылка | |
НЛП | Текст | Набор данных многодоменного анализа настроений | Электронная коммерция | Анализ настроений | Набор данных, содержащий обзоры продуктов с Amazon | Ссылка |
НЛП | Текст | IMDB Отзывы | Развлечения | Анализ настроений | Набор данных, содержащий 25000 обзоров фильмов для анализа настроений | Ссылка |
НЛП | Текст | Настроение140 | Общие | Анализ настроений | Набор данных, содержащий 160,000 твитов с предварительно удаленными смайликами для большей точности | Ссылка |
НЛП | Текст | Корпус блоггера | Общие | Анализ ключевых слов | Набор данных, содержащий 681,288 200 сообщений блога с blogger.com, состоящий как минимум из XNUMX вхождений широко используемых английских слов. | Ссылка |
НЛП | Текст | Опасность | Общие | Обучение чат-бота | Набор данных с более чем 200,000 XNUMX вопросов, которые можно использовать для обучения моделей машинного обучения умным автоматическим ответам. | Ссылка |
НЛП | Текст | Сборник SMS-спама на английском языке | Телеком | Распознавание спама | Набор данных спам-сообщений, состоящий из 5,574 XNUMX SMS на английском языке. | Ссылка |
НЛП | Текст | Yelp Отзывы | Общие | Анализ настроений | Набор данных с более чем 5-миллионным обзором, опубликованный Yelp | Ссылка |
НЛП | Текст | Спамбаза UCI | Предприятие | Распознавание спама | Большой набор данных спама, полезный для фильтрации спама. | Ссылка |
CV | Видео, Изображение | Беркли DeepDrive BDD100k | Автомобильная | Автономные транспортные средства | Один из крупнейших наборов данных для искусственного интеллекта с автономным управлением, содержащий 1,100 часов опыта вождения в более чем 100,000 видеороликов из Нью-Йорка и Сан-Франциско, снятых в разное время суток. | Ссылка |
CV | Видео | Запятая.ai | Автомобильная | Автономные транспортные средства | Набор данных за 7 часов вождения по шоссе, содержащий информацию о скорости автомобиля, ускорении, угле поворота и координатах GPS. | Ссылка |
CV | Видео, Изображение | Набор данных городского пейзажа | Автомобильная | Семантическая метка для автономного транспортного средства | Набор данных из 5,000 аннотаций на уровне пикселей плюс более крупный набор из 20,000 слабо аннотированных кадров в стереовидеопоследовательностях, записанных из 50 разных городов. | Ссылка |
CV | Фото товара | Набор данных дорожных знаков KUL Belgium | Автомобильная | Автономные транспортные средства | Более 10000+ аннотаций дорожных знаков из региона Фландрия на основе физически различных дорожных знаков со всей Бельгии. | Ссылка |
CV | Фото товара | LISA: Лаборатория интеллектуальных и безопасных автомобилей, UC San Diego Datasets | Автомобильная | Автономные транспортные средства | Богатый набор данных, содержащий дорожные знаки, средства обнаружения транспортных средств, светофоры и схемы траектории. | Ссылка |
CV | Фото товара | СИФАР-10 | Общие | Распознавание объектов | Набор данных, состоящий из 50,000 10,000 изображений и 60,000 32 тестовых изображений (т.е. 32 10 цветных изображений XNUMX × XNUMX в XNUMX классах) для распознавания объектов. | Ссылка |
CV | Фото товара | Мода MNIST | Мода | Набор данных изображения, состоящий из 60,000 10,000 примеров и тестовый набор из 28 28 примеров в полутоновых изображениях 10 × XNUMX, связанных с меткой из XNUMX классов. | Ссылка | |
CV | Фото товара | Набор данных IMDB-Wiki | Развлечения | Признание лица | Большой набор изображений лиц с такими метками, как пол и возраст. Из общего количества 523,051 460,723 изображения лиц 20,284 62,328 изображения получены от XNUMX XNUMX знаменитостей из IMDB и XNUMX XNUMX из Википедии. | Ссылка |
CV | Видео | Кинетика-700 | Общие | Для каждого класса действий высококачественный набор данных состоит из 650,000 700 видеоклипов и включает 600 классов действий человека с как минимум 10 видеоклипами. Здесь каждый клип длится около XNUMX секунд. | Ссылка | |
CV | Фото товара | МС Коко | Общие | Обнаружение объектов, сегментация | Набор данных содержит 328 тыс. Изображений и в общей сложности 2.5 млн экземпляров и 91 изображение объектов для обучения крупномасштабным моделям машинного обучения, связанным с обнаружением, сегментацией и субтитрами данных. | Ссылка |
CV | Фото товара | Набор данных позы человека MPII | Общие | Около 25 тысяч фотографий, содержащих более 40 тысяч людей с аннотированными суставами тела, включены в набор данных, который используется для оценки позы человека. В целом набор данных охватывает 410 человеческих действий, и каждое изображение снабжено меткой активности. | Ссылка | |
CV | Фото товара | Открытые изображения | Общие | Аннотации местоположения объекта | Набор данных изображений, содержащий около 9 миллионов изображений, аннотированных метками уровня изображения, ограничивающими рамками объектов, сегментацией объектов и т. Д. Набор данных также состоит из 16 миллионов изображений. ограничивающие рамки для 600 классов объектов на 1.9 млн изображений. | Ссылка |
CV | Видео | Открытая платформа Apollo, Baidu Inc, Китай | Автомобильная | Граничная коробка, LiDAR | Богатый набор данных по автономному вождению, который предоставляет разработчикам необходимые данные по автономному вождению, чтобы повысить эффективность инновационной итерации. | Ссылка |
CV | Видео, Изображение | Арго, Арго, США | Автомобильная | Граничная рамка, оптический поток, поведенческая метка, семантическая метка, маркировка полосы движения | Набор данных для самостоятельного вождения, который состоит из HD-карт с геометрическими и семантическими метаданными, то есть осевыми линиями полос движения, направлением полосы движения и зоной проезда. Набор данных используется для обучения моделей машинного обучения, для создания более точных алгоритмов восприятия, которые помогут беспилотным транспортным средствам безопасно ориентироваться. | Ссылка |
CV | Видео | Малые светофоры Bosch, исследование Bosch North America | Автомобильная | Ограничительная рамка | Набор данных, состоящий из 13427 изображений с камеры с разрешением 1280 * 720 для создания системы обнаружения светофора на основе технического зрения. Набор данных содержит более 24000 аннотированных светофоров. | Ссылка |
CV | Видео | Brain4Cars, Корнельский университет, США | Автомобильная | Поведенческий ярлык | Набор данных, состоящий из массива датчиков кабины (камеры, тактильные датчики, интеллектуальные устройства и т. Д.) Для извлечения полезной статистики о бдительности водителя. Наши алгоритмы могут обнаруживать сонливых или рассеянных водителей и активировать необходимые сигналы тревоги для улучшения защиты. | Ссылка |
CV | Фото товара | CULane, китайский Univ. Гонконга, Пекина, Китая | Автомобильная | Разметка полосы движения | Набор данных компьютерного зрения по обнаружению полосы движения, состоящий из 55 часов видео, из которых были извлечены 133,235 88880 кадров (9675 обучающих наборов, 34680 проверочных наборов и XNUMX тестовых наборов). Его собирают камеры, установленные на шести разных автомобилях, которыми управляют разные водители в Пекине. | Ссылка |
CV | Видео | ДЭВИС, Univ. Цюриха, ETH ¨ Цюрих, Германия, Швейцария | Автомобильная | Комплексный набор данных для обучения вождению автомобиля, в котором используется камера DAVIS event + frame. Данные автомобиля, такие как рулевое управление, дроссельная заслонка, GPS и т. Д., Используются для оценки слияния данных кадра и событий для автомобильных приложений. | Ссылка | |
CV | Видео | DBNet, Шанхайский университет Цзяо Тонг, Сямэньский университет, Китай | Автомобильная | Облако точек, LiDAR | Реальные данные о движении на 1000 км, которые включают согласованное видео, облако точек, GPS и поведение водителя для углубленного исследования поведения водителя. | Ссылка |
CV | Видео | Доктор (глаз) ве, Univ. Модены и Реджо-Эмилия, Модена, Италия | Автомобильная | Поведенческий ярлык | Набор данных, содержащий 74 видеопоследовательности по 5 минут каждая, с аннотациями более 500,000 XNUMX кадров. Набор данных состоит из местоположений с географической привязкой, скорости движения, курса, а также меток фиксации взгляда водителей и их временной интеграции с предоставлением карт для конкретных задач. | Ссылка |
CV | Видео | ETH Pedestrian (2009), ETH Zurich, Цюрих, Швейцария | Общие | Ограничительная рамка | Набор данных из 74 видеопоследовательностей по 5 минут каждая, аннотированных более чем 500,000 XNUMX кадров. Набор данных обеспечивает географическую привязку местоположения, скорости движения, направления, а также отмечает фиксацию взгляда для водителей и их временную интеграцию, включая карты для конкретных задач. | Ссылка |
CV | Видео | Форд (2009), Univ. Мичиган, Мичиган, США | Автомобильная | Граничная коробка`` LiDAR | Набор данных, собранный автоматизированным наземным транспортным средством, оснащенным 3D-лидарным сканером Velodyne, двумя передовыми лидарами Rieg с метлами, техническим и потребительским инерциальным измерительным устройством (IMU) и системой всенаправленной камеры Point Grey Ladybug3. | Ссылка |
CV | Видео | HCI Challenging Stereo, Bosch Corporation Research, Хильдесхайм, Германия | Общие | Набор данных из нескольких миллионов кадров из захваченных видеосцен, которые включают широкий спектр различных погодных условий, несколько уровней движения и глубины; ситуации в городе и деревне и т. д. | Ссылка | |
CV | Видео | JAAD, Йоркский университет, Украина, Канада | Автомобильная | Граничная рамка, Поведенческая этикетка | «JAAD - это набор данных для изучения совместного внимания в контексте автономного вождения. Основное внимание уделяется поведению пешеходов и водителей в точке перехода и факторам, которые на них влияют. Для этого набор данных JAAD предоставляет богато аннотированную коллекцию из 346 коротких видеороликов. клипы (длительностью 5–10 секунд), извлеченные из более чем 240 часов видеозаписей вождения из нескольких мест в Северной Америке и Восточной Европе. Граничные рамки с тегами загораживания используются для всех пешеходов, что делает этот набор данных подходящим для обнаружения пешеходов. Поведенческие аннотации определяют поведение пешеходов которые взаимодействуют с водителем или требуют внимания со стороны водителя. Для каждого видео есть несколько тегов (погода, местоположение и т. д.) и метки поведения с отметками времени (например, остановка, ходьба, поиск и т. д.). Кроме того, есть список демографических атрибутов. для каждого пешехода (например, возраст, пол, направление движения и т. д.), а также список видимых элементов сцены дорожного движения (например, знак остановки, светофор и т. д.) в каждом кадре ". | Ссылка |
CV | Видео | KAIST Urban, KAIST, Южная Корея | Общие | LiDAR | Сбор данных включает в себя многочисленные датчики местоположения для данных LiDAR и стереоизображений, нацеленных на очень сложную городскую территорию (например, мегаполисы, сложные здания и жилые районы). | Ссылка |
CV | Фото товара | Дорожный знак LISA, Univ. Калифорнии, Сан-Диего, США | Автомобильная | Ограничительная рамка | Набор данных, содержащий видео и аннотированные кадры, содержащие дорожные знаки США. Он выпускается в два этапа: один - только с изображениями, а второй - с изображениями и видео. | Ссылка |
CV | Фото товара | Mapillary Vistas от Mapillary AB, Global | Автомобильная | Семантическая метка | Набор данных фотографии улиц для интерпретации уличных сцен по всему миру с помощью человеческих аннотаций с точностью до пикселя и конкретных экземпляров. | Ссылка |
CV | Видео, Изображение | Семантический KITTI, Боннский университет, Карлсруэ, Германия | Автомобильная | Граничная рамка, семантическая метка, разметка полосы движения | Набор данных, который включает семантическую аннотацию для всех последовательностей Odometry Benchmark. Набор данных аннотирует различные типы движущегося и неподвижного трафика: включая автомобили, велосипеды, велосипеды, пешеходов и велосипедистов, что позволяет изучать объекты на сцене. | Ссылка |
CV | Видео | Stanford Track, Стэнфордский университет, США | Автомобильная | Обнаружение / классификация объектов LiDAR, GPS, коды | Набор данных, включающий 14,000 маркированных дорожек объектов, наблюдаемых лидаром Velodyne HDL-64E S2 в естественных уличных сценах, который можно использовать для обучения моделей машинного обучения распознаванию трехмерных объектов. | Ссылка |
CV | Видео, Изображение | Набор данных Boxy, Bosch, США | Автомобильная | Ограничивающая рамка / обнаружение транспортных средств | Набор данных обнаружения транспортных средств, содержащий 2 миллиона аннотированных транспортных средств для обучения и анализа стратегий распознавания объектов для беспилотных автомобилей на автомагистралях. | Ссылка |
CV | Видео | Автомагистраль TME, Чешский технический университет, Северная Италия | Автомобильная | Ограничительная рамка | Набор данных из 28 клипов общей продолжительностью 27 минут, разделенных на более чем 30,000 XNUMX фреймов аннотаций для транспортных средств. Аннотации производились полуавтоматически с использованием данных лазерного сканера. Этот сбор данных включает в себя различные сценарии движения, количество полос движения, кривизну дороги и освещенность, охватывая большую часть условий полного сбора данных. | Ссылка |
CV | Видео | Ламы без присмотра, компания Bosch, США | Автомобильная | Разметка полосы движения, LiDAR | Набор данных неконтролируемых лам был аннотирован путем создания автоматических карт вождения с высоким разрешением, включая маркеры полос движения на основе лидаров. Автономное транспортное средство можно сопоставить с этими картами, и разметка полос проецируется на рамку камеры. 3D-проекция оптимизирована за счет минимизации расхождений между уже наблюдаемыми и предсказанными маркерами изображения. | Ссылка |
НЛП | Аудио | Facebook AI Многоязычный LibriSpeech (MLS) | Общие | Аудиоаннотации / Распознавание речи | Facebook AI Multilingual LibriSpeech (MLS) - это крупномасштабный набор данных с открытым исходным кодом, предназначенный для содействия исследованиям в области автоматического распознавания речи (ASR). MLS обеспечивает более 50,000 8 часов аудио на XNUMX языках: английском, немецком, голландском, французском, испанском, итальянском, португальском и польском. | Ссылка |