Открытые наборы данных

Откройте для себя наборы данных с открытым исходным кодом, которые помогут вам обучать модели машинного обучения

Открытые наборы данных

Наборы данных с открытым исходным кодом для начала работы с моделями AI / ML

Результаты ваших моделей AI и ML настолько хороши, насколько хороши данные, которые вы используете для их обучения, поэтому важна точность, которую вы применяете к агрегированию данных, а также к тегированию и идентификации этих данных!

Итак, если вы хотите начать новую инициативу AI / ML и теперь быстро понимаете, что поиск высококачественных данных обучения будет одним из наиболее сложных аспектов вашего проекта, поскольку высококачественные наборы данных являются топливом, которое поддерживает AI / Двигатель ML работает. Мы собрали список открытых наборов данных, которые можно бесплатно использовать и обучать вашим моделям AI / ML будущего.

СпециализацияТип данныхНазвание набора данныхПромышленность / Департамент.Аннотация / вариант использованияОписаниеСсылка
НЛПТекстAmazon отзывыЭлектронная коммерцияАнализ настроенийНабор из 35 миллионов отзывов и оценок за последние 18 лет в виде простого текста с подробностями о пользователях и продуктах.Ссылка
НЛПТекстДанные о ссылках на ВикипедиюОбщиеБолее 4 млн. статьи, содержащие 1.9 млрд руб. слово, состоящее из слов и фраз, а также абзацев.Ссылка
НЛПТекстСтэнфордское дерево настроенийРазвлечения на бортуАнализ настроенийНабор данных аннотаций настроений для более чем 10,000 XNUMX обзоров от Rotten Tomatoes в формате HTMLСсылка
НЛПТекстTwitter настроения авиакомпаний СШААвиакомпанияАнализ настроений2015 г. Твиты об авиалиниях США раздвоены на положительные, отрицательные и нейтральные тонаСсылка
CVФото товара Маркированные лица в дикой природеОбщиеПризнание лицаНабор данных, содержащий более 13,000 XNUMX обрезанных лиц с двумя разными изображениями для обучения распознаванию лиц.Ссылка
CVВидео, ИзображениеНабор данных UMDFacesОбщиеПризнание лицаАннотированный набор данных, содержащий более 367,000 8,000 лиц более XNUMX XNUMX субъектов, включая фото и видео.Ссылка
CVФото товара ИмиджнетОбщиеНабор данных с более чем 14 млн. изображения в файлах различных форматов, организованные в соответствии с иерархией WordNet.Ссылка
CVФото товара Открытые изображения GoogleОбщие9 Мн. URL-адреса для категоризации общедоступных изображений из более чем 6,000 категорий.Ссылка
НЛПТекстБаза данных MIMIC Critical CareЗдоровьеНаборы данных вычислительной физиологии с обезличенными данными от 40,000 XNUMX пациентов интенсивной терапии. Набор данных содержит такую ​​информацию, как демографические данные, показатели жизнедеятельности, лекарства и т. Д.Ссылка
CVФото товараНациональное бюро путешествий и туризма СШАтуризмПредоставляет обширные фотографии из индустрии туризма с надежными базами данных, охватывающими такие темы, как въездные и выездные путешествия и международная туристическая информация.Ссылка
НЛПТекстОтдел транспортатуризмНаборы данных о туризме, которые включают национальные парки, реестры водителей, информацию о мостах, железных дорогах и т. Д.Ссылка
НЛПАудиоКорпус Flickr Audio Caption CorpusОбщиеБолее 40 тысяч озвученных подписей из 8,000 фотографий, разработанных для неконтролируемых речевых образов.Ссылка
НЛПАудиоНабор данных речевых командОбщиеРаспознавание речи, аудиоаннотацииОдносекундные высказывания тысяч людей для создания базового голосового интерфейса.Ссылка
НЛПАудиоФСД (бесплатный звук)ОбщиеСборник повседневных звуков, собранных по лицензии с открытым исходным кодом.Ссылка
НЛПАудиоНаборы данных звукового окруженияОбщиеНаборы аудиоданных среды, содержащие звуковые таблицы событий и таблицы акустических сцен.Ссылка
НЛПТекстCOVID-19 Набор данных открытых исследований ЗдоровьеМедицинский ИИНабор исследовательских данных, состоящий из 45,000 19 научных статей о COVID-XNUMX и вирусном семействе коронавирусов.Ссылка
CVФото товараWaymo Открытый набор данных АвтомобильнаяСамые разнообразные наборы данных об автономном вождении, выпущенные WaymoСсылка
CVФото товараВизуальный геном ОбщиеПодписи к изображениямВизуальная база знаний с подробными субтитрами для более 100 тысяч изображений.Ссылка
CVФото товараМетка Общественное правительствоБольшой набор аннотированных изображений, доступных через Labelme MatlabСсылка
CVФото товараКАТУШКА100ОбщиеБолее 100 разнообразных объектов, сфотографированных под разными углами (например, 360 градусов)Ссылка
CVФото товараНабор данных Stanford DogsОбщиеБолее 20,500 120+ изображений, сгруппированных в набор изображений XNUMX различных пород собак.Ссылка
CVФото товараРаспознавание сцены в помещенииОбщиеРаспознавание сценыСпециальный набор данных, состоящий из 15620 изображений из 67 категорий помещений для построения моделей распознавания сцен.Ссылка
CVФото товаравизуальный контроль качестваОбщиеНабор данных, который включает открытые вопросы по 265,016 XNUMX фотографиям, для ответа на которые требуется понимание зрения и понимание языка.Ссылка
НЛПТекстНабор данных многодоменного анализа настроенийЭлектронная коммерцияАнализ настроенийНабор данных, содержащий обзоры продуктов с AmazonСсылка
НЛПТекстIMDB ОтзывыРазвлечения на бортуАнализ настроенийНабор данных, содержащий 25000 обзоров фильмов для анализа настроенийСсылка
НЛПТекстНастроение140ОбщиеАнализ настроенийНабор данных, содержащий 160,000 твитов с предварительно удаленными смайликами для большей точностиСсылка
НЛПТекстКорпус блоггераОбщиеАнализ ключевых словНабор данных, содержащий 681,288 200 сообщений блога с blogger.com, состоящий как минимум из XNUMX вхождений широко используемых английских слов.Ссылка
НЛПТекстОпасностьОбщиеОбучение чат-ботаНабор данных с более чем 200,000 XNUMX вопросов, которые можно использовать для обучения моделей машинного обучения умным автоматическим ответам.Ссылка
НЛПТекстСборник SMS-спама на английском языкеТелекомРаспознавание спамаНабор данных спам-сообщений, состоящий из 5,574 XNUMX SMS на английском языке.Ссылка
НЛПТекстYelp ОтзывыОбщиеАнализ настроенийНабор данных с более чем 5-миллионным обзором, опубликованный YelpСсылка
НЛПТекстСпамбаза UCIПредприятиеРаспознавание спамаБольшой набор данных спама, полезный для фильтрации спама.Ссылка
CVВидео, ИзображениеБеркли DeepDrive BDD100kАвтомобильнаяАвтономные транспортные средстваОдин из крупнейших наборов данных для искусственного интеллекта с автономным управлением, содержащий 1,100 часов опыта вождения в более чем 100,000 видеороликов из Нью-Йорка и Сан-Франциско, снятых в разное время суток.Ссылка
CVВидеоBaidu АполлонскейпыАвтомобильнаяАвтономные автомобили`` Семантическая метка, Разметка полосы движенияШирокий набор данных изображений, который описывает 26 отдельных семантических объектов, таких как автомобили, велосипедисты, люди, дома, уличные фонари и т. Д.Ссылка
CVВидеоЗапятая.aiАвтомобильнаяАвтономные транспортные средства Набор данных за 7 часов вождения по шоссе, содержащий информацию о скорости автомобиля, ускорении, угле поворота и координатах GPS.Ссылка
CVВидео, ИзображениеНабор данных городского пейзажаАвтомобильнаяСемантическая метка для автономного транспортного средстваНабор данных из 5,000 аннотаций на уровне пикселей плюс более крупный набор из 20,000 слабо аннотированных кадров в стереовидеопоследовательностях, записанных из 50 разных городов.Ссылка
CVФото товараНабор данных дорожных знаков KUL BelgiumАвтомобильнаяАвтономные транспортные средстваБолее 10000+ аннотаций дорожных знаков из региона Фландрия на основе физически различных дорожных знаков со всей Бельгии.Ссылка
CVФото товараLISA: Лаборатория интеллектуальных и безопасных автомобилей, UC San Diego DatasetsАвтомобильнаяАвтономные транспортные средстваБогатый набор данных, содержащий дорожные знаки, средства обнаружения транспортных средств, светофоры и схемы траектории.Ссылка
CVФото товараСИФАР-10ОбщиеРаспознавание объектовНабор данных, состоящий из 50,000 10,000 изображений и 60,000 32 тестовых изображений (т.е. 32 10 цветных изображений XNUMX × XNUMX в XNUMX классах) для распознавания объектов.Ссылка
CVФото товараМода MNISTМодаНабор данных изображения, состоящий из 60,000 10,000 примеров и тестовый набор из 28 28 примеров в полутоновых изображениях 10 × XNUMX, связанных с меткой из XNUMX классов.Ссылка
CVФото товараНабор данных IMDB-WikiРазвлечения на бортуПризнание лицаБольшой набор изображений лиц с такими метками, как пол и возраст. Из общего количества 523,051 460,723 изображения лиц 20,284 62,328 изображения получены от XNUMX XNUMX знаменитостей из IMDB и XNUMX XNUMX из Википедии.Ссылка
CVВидеоКинетика-700ОбщиеДля каждого класса действий высококачественный набор данных состоит из 650,000 700 видеоклипов и включает 600 классов действий человека с как минимум 10 видеоклипами. Здесь каждый клип длится около XNUMX секунд.Ссылка
CVФото товараМС КокоОбщиеОбнаружение объектов, сегментацияНабор данных содержит 328 тыс. Изображений и в общей сложности 2.5 млн экземпляров и 91 изображение объектов для обучения крупномасштабным моделям машинного обучения, связанным с обнаружением, сегментацией и субтитрами данных.Ссылка
CVФото товараНабор данных позы человека MPIIОбщиеОколо 25 тысяч фотографий, содержащих более 40 тысяч людей с аннотированными суставами тела, включены в набор данных, который используется для оценки позы человека. В целом набор данных охватывает 410 человеческих действий, и каждое изображение снабжено меткой активности.Ссылка
CVФото товараОткрытые изображенияОбщиеАннотации местоположения объектаНабор данных изображений, содержащий около 9 миллионов изображений, аннотированных метками уровня изображения, ограничивающими рамками объектов, сегментацией объектов и т. Д. Набор данных также состоит из 16 миллионов изображений. ограничивающие рамки для 600 классов объектов на 1.9 млн изображений.Ссылка
CVВидеоОткрытая платформа Apollo, Baidu Inc, КитайАвтомобильнаяГраничная коробка, LiDARБогатый набор данных по автономному вождению, который предоставляет разработчикам необходимые данные по автономному вождению, чтобы повысить эффективность инновационной итерации.Ссылка
CVВидео, ИзображениеАрго, Арго, СШААвтомобильнаяГраничная рамка, оптический поток, поведенческая метка, семантическая метка, маркировка полосы движенияНабор данных для самостоятельного вождения, который состоит из HD-карт с геометрическими и семантическими метаданными, то есть осевыми линиями полос движения, направлением полосы движения и зоной проезда. Набор данных используется для обучения моделей машинного обучения, для создания более точных алгоритмов восприятия, которые помогут беспилотным транспортным средствам безопасно ориентироваться.Ссылка
CVВидеоМалые светофоры Bosch, исследование Bosch North AmericaАвтомобильнаяОграничительная рамкаНабор данных, состоящий из 13427 изображений с камеры с разрешением 1280 * 720 для создания системы обнаружения светофора на основе технического зрения. Набор данных содержит более 24000 аннотированных светофоров.Ссылка
CVВидеоBrain4Cars, Корнельский университет, СШААвтомобильнаяПоведенческий ярлыкНабор данных, состоящий из массива датчиков кабины (камеры, тактильные датчики, интеллектуальные устройства и т. Д.) Для извлечения полезной статистики о бдительности водителя. Наши алгоритмы могут обнаруживать сонливых или рассеянных водителей и активировать необходимые сигналы тревоги для улучшения защиты.Ссылка
CVФото товараCULane, китайский Univ. Гонконга, Пекина, КитаяАвтомобильнаяРазметка полосы движенияНабор данных компьютерного зрения по обнаружению полосы движения, состоящий из 55 часов видео, из которых были извлечены 133,235 88880 кадров (9675 обучающих наборов, 34680 проверочных наборов и XNUMX тестовых наборов). Его собирают камеры, установленные на шести разных автомобилях, которыми управляют разные водители в Пекине.Ссылка
CVВидеоДЭВИС, Univ. Цюриха, ETH ¨ Цюрих, Германия, ШвейцарияАвтомобильнаяКомплексный набор данных для обучения вождению автомобиля, в котором используется камера DAVIS event + frame. Данные автомобиля, такие как рулевое управление, дроссельная заслонка, GPS и т. Д., Используются для оценки слияния данных кадра и событий для автомобильных приложений.Ссылка
CVВидеоDBNet, Шанхайский университет Цзяо Тонг, Сямэньский университет, КитайАвтомобильнаяОблако точек, LiDARРеальные данные о движении на 1000 км, которые включают согласованное видео, облако точек, GPS и поведение водителя для углубленного исследования поведения водителя.Ссылка
CVВидеоДоктор (глаз) ве, Univ. Модены и Реджо-Эмилия, Модена, ИталияАвтомобильнаяПоведенческий ярлыкНабор данных, содержащий 74 видеопоследовательности по 5 минут каждая, с аннотациями более 500,000 XNUMX кадров. Набор данных состоит из местоположений с географической привязкой, скорости движения, курса, а также меток фиксации взгляда водителей и их временной интеграции с предоставлением карт для конкретных задач.Ссылка
CVВидеоETH Pedestrian (2009), ETH Zurich, Цюрих, ШвейцарияОбщиеОграничительная рамкаНабор данных из 74 видеопоследовательностей по 5 минут каждая, аннотированных более чем 500,000 XNUMX кадров. Набор данных обеспечивает географическую привязку местоположения, скорости движения, направления, а также отмечает фиксацию взгляда для водителей и их временную интеграцию, включая карты для конкретных задач.Ссылка
CVВидеоФорд (2009), Univ. Мичиган, Мичиган, СШААвтомобильнаяГраничная коробка`` LiDARНабор данных, собранный автоматизированным наземным транспортным средством, оснащенным 3D-лидарным сканером Velodyne, двумя передовыми лидарами Rieg с метлами, техническим и потребительским инерциальным измерительным устройством (IMU) и системой всенаправленной камеры Point Grey Ladybug3.Ссылка
CVВидеоHCI Challenging Stereo, Bosch Corporation Research, Хильдесхайм, ГерманияОбщиеНабор данных из нескольких миллионов кадров из захваченных видеосцен, которые включают широкий спектр различных погодных условий, несколько уровней движения и глубины; ситуации в городе и деревне и т. д.Ссылка
CVВидеоJAAD, Йоркский университет, Украина, КанадаАвтомобильнаяГраничная рамка, Поведенческая этикетка«JAAD - это набор данных для изучения совместного внимания в контексте автономного вождения. Основное внимание уделяется поведению пешеходов и водителей в точке перехода и факторам, которые на них влияют. Для этого набор данных JAAD предоставляет богато аннотированную коллекцию из 346 коротких видеороликов. клипы (длительностью 5–10 секунд), извлеченные из более чем 240 часов видеозаписей вождения из нескольких мест в Северной Америке и Восточной Европе. Граничные рамки с тегами загораживания используются для всех пешеходов, что делает этот набор данных подходящим для обнаружения пешеходов. Поведенческие аннотации определяют поведение пешеходов которые взаимодействуют с водителем или требуют внимания со стороны водителя. Для каждого видео есть несколько тегов (погода, местоположение и т. д.) и метки поведения с отметками времени (например, остановка, ходьба, поиск и т. д.). Кроме того, есть список демографических атрибутов. для каждого пешехода (например, возраст, пол, направление движения и т. д.), а также список видимых элементов сцены дорожного движения (например, знак остановки, светофор и т. д.) в каждом кадре ".Ссылка
CVВидеоKAIST Urban, KAIST, Южная КореяОбщиеLiDARСбор данных включает в себя многочисленные датчики местоположения для данных LiDAR и стереоизображений, нацеленных на очень сложную городскую территорию (например, мегаполисы, сложные здания и жилые районы).Ссылка
CVФото товараДорожный знак LISA, Univ. Калифорнии, Сан-Диего, СШААвтомобильнаяОграничительная рамкаНабор данных, содержащий видео и аннотированные кадры, содержащие дорожные знаки США. Он выпускается в два этапа: один - только с изображениями, а второй - с изображениями и видео.Ссылка
CVФото товараMapillary Vistas от Mapillary AB, GlobalАвтомобильнаяСемантическая меткаНабор данных фотографии улиц для интерпретации уличных сцен по всему миру с помощью человеческих аннотаций с точностью до пикселя и конкретных экземпляров.Ссылка
CVВидео, ИзображениеСемантический KITTI, Боннский университет, Карлсруэ, ГерманияАвтомобильнаяГраничная рамка, семантическая метка, разметка полосы движенияНабор данных, который включает семантическую аннотацию для всех последовательностей Odometry Benchmark. Набор данных аннотирует различные типы движущегося и неподвижного трафика: включая автомобили, велосипеды, велосипеды, пешеходов и велосипедистов, что позволяет изучать объекты на сцене.Ссылка
CVВидеоStanford Track, Стэнфордский университет, СШААвтомобильнаяОбнаружение / классификация объектов LiDAR, GPS, кодыНабор данных, включающий 14,000 маркированных дорожек объектов, наблюдаемых лидаром Velodyne HDL-64E S2 в естественных уличных сценах, который можно использовать для обучения моделей машинного обучения распознаванию трехмерных объектов.Ссылка
CVВидеоStixel, Daimler AG, ГерманияАвтомобильнаяСтиксельНабор данных, состоящий из 12 стерео дорожных последовательностей, аннотированных наземными данными о свободном пространстве (стиксели) и данными транспортного средства (скорость, угол рыскания и отметка времени) и геометрией камеры.Ссылка
CVВидео, ИзображениеНабор данных Boxy, Bosch, СШААвтомобильнаяОграничивающая рамка / обнаружение транспортных средствНабор данных обнаружения транспортных средств, содержащий 2 миллиона аннотированных транспортных средств для обучения и анализа стратегий распознавания объектов для беспилотных автомобилей на автомагистралях.Ссылка
CVВидеоАвтомагистраль TME, Чешский технический университет, Северная ИталияАвтомобильнаяОграничительная рамкаНабор данных из 28 клипов общей продолжительностью 27 минут, разделенных на более чем 30,000 XNUMX фреймов аннотаций для транспортных средств. Аннотации производились полуавтоматически с использованием данных лазерного сканера. Этот сбор данных включает в себя различные сценарии движения, количество полос движения, кривизну дороги и освещенность, охватывая большую часть условий полного сбора данных.Ссылка
CVВидеоЛамы без присмотра, компания Bosch, СШААвтомобильнаяРазметка полосы движения, LiDARНабор данных неконтролируемых лам был аннотирован путем создания автоматических карт вождения с высоким разрешением, включая маркеры полос движения на основе лидаров. Автономное транспортное средство можно сопоставить с этими картами, и разметка полос проецируется на рамку камеры. 3D-проекция оптимизирована за счет минимизации расхождений между уже наблюдаемыми и предсказанными маркерами изображения.Ссылка
НЛПАудиоFacebook AI Многоязычный LibriSpeech (MLS)ОбщиеАудиоаннотации / Распознавание речиFacebook AI Multilingual LibriSpeech (MLS) - это крупномасштабный набор данных с открытым исходным кодом, предназначенный для содействия исследованиям в области автоматического распознавания речи (ASR). MLS обеспечивает более 50,000 8 часов аудио на XNUMX языках: английском, немецком, голландском, французском, испанском, итальянском, португальском и польском. Ссылка