Открытые наборы данных
Откройте для себя наборы данных с открытым исходным кодом, которые помогут вам обучать модели машинного обучения
Наборы данных с открытым исходным кодом для начала работы с моделями AI / ML
Результаты ваших моделей AI и ML настолько хороши, насколько хороши данные, которые вы используете для их обучения, поэтому важна точность, которую вы применяете к агрегированию данных, а также к тегированию и идентификации этих данных!
Итак, если вы хотите начать новую инициативу AI / ML и теперь быстро понимаете, что поиск высококачественных данных обучения будет одним из наиболее сложных аспектов вашего проекта, поскольку высококачественные наборы данных являются топливом, которое поддерживает AI / Двигатель ML работает. Мы собрали список открытых наборов данных, которые можно бесплатно использовать и обучать вашим моделям AI / ML будущего.
| Специализация | Тип данных | Название набора данных | Промышленность / Департамент. | Аннотация / вариант использования | Ссылка |
|---|---|---|---|---|---|
| +НЛП | Текст | Amazon отзывы | Электронная коммерция | Анализ настроений | Ссылка |
| Описание | Набор из 35 миллионов отзывов и оценок за последние 18 лет в виде простого текста с подробностями о пользователях и продуктах. | ||||
| +НЛП | Текст | Данные о ссылках на Википедию | Общие | Ссылка | |
| Описание | Более 4 млн статей из Википедии, содержащих 1.9 млрд слов. Каждая статья содержит гиперссылки на соответствующие сущности. | ||||
| +НЛП | Текст | Стэнфордское дерево настроений | Развлечение | Анализ настроений | Ссылка |
| Описание | Набор данных с аннотациями тональности для более чем 10 000 предложений из обзоров фильмов на Rotten Tomatoes. Доступен на уровне фраз: каждое предложение разбивается на подфразы путём бинаризации деревьев разбора в формате Penn Treebank. | ||||
| +НЛП | Текст | Twitter настроения авиакомпаний США | Авиакомпания | Анализ настроений | Ссылка |
| Описание | Твиты об US Airlines в 2015 году разделились на позитивные, нейтральные и негативные. | ||||
| +CV | Фото товара | Имиджнет | Общие | Ссылка | |
| Описание | Набор данных, содержащий более 14 млн изображений в различных форматах файлов, сопоставленных примерно с 21 000 синсетами. Синсеты — это синомимы с соответствующими сущностями, представленными в виде изображения. 1 млн изображений имеют ограничивающие рамки, и более 1 млн изображений имеют функции SIFT. | ||||
| +CV | Фото товара | Открытые изображения Google | Общие | Ссылка | |
| Описание | Набор данных, аналогичный ImageNet, с 600 категориями. Доступен в вариантах для разработки, валидации и обучения. Некоторые изображения также содержат ограничивающие рамки и визуальные взаимосвязи. | ||||
| +НЛП | Текст | Диалоги из фильмов Корнелла | Развлечение | Диалоги | Ссылка |
| Описание | Коллекция вымышленных диалогов с метаданными персонажей и фильмов. Каждая строка представляет собой диалог между двумя людьми в формате «вопрос-ответ». | ||||
| Описание | Набор данных вопросов и ответов с портала Yahoo Answers за период с апреля 2007 г. по октябрь 2007 г. | ||||
| +НЛП | Текст | МС МАРКО | Общие | Ответ на вопрос | Ссылка |
| Описание | Набор данных «вопрос-ответ» с аннотациями из журналов поиска Bing. Каждый вопрос содержит ответ пользователя, а также фрагменты веб-страниц, содержащие этот ответ. | ||||
| +НЛП | Текст | Набор данных Natural Questions | Общие | Ответ на вопрос | Ссылка |
| Описание | Этот набор данных, выпущенный Google, содержит реальные запросы пользователей и ответы из статей Википедии. | ||||
| +НЛП | Текст | ДБПедия | Общие | График знаний | Ссылка |
| Описание | Структурированная визуализация Википедии с сущностями и отношениями, извлеченными в виде Графа знаний. | ||||
| +НЛП | Текст | ЯГО | Общие | График знаний | Ссылка |
| Описание | Граф знаний, содержащий сущности и связи из Wikipedia, WordNet и GeoNames. | ||||
| +НЛП | Текст | FreeBase | Общие | График знаний | Ссылка |
| Описание | База знаний, созданная на основе краудсорсинга и состоящая из сущностей и взаимосвязей, теперь включена в граф знаний Google. | ||||
| +НЛП | Текст | Онтонотес | Общие | Маркировка семантических ролей | Ссылка |
| Описание | Корпус с синтаксическими, семантическими и дискурсивными аннотациями, используемый в общих заданиях CoNLL. | ||||
| +НЛП | Текст | КонНЛЛ 2003 | Общие | Признание названного лица | Ссылка |
| Описание | Набор данных на английском языке, аннотированный по именованным сущностям, таким как лицо, организация и местоположение. | ||||
| +CV | Фото товара | Кокос | Общие | Обнаружение объекта | Ссылка |
| Описание | Распространенные объекты в контексте: богато аннотированный набор данных для обнаружения, сегментации и субтитров объектов. | ||||
| +CV | Фото товара | ПАСКАЛЬНЫЙ ЛОС | Общие | Обнаружение объекта | Ссылка |
| Описание | Контрольный набор данных для решения задач обнаружения и сегментации объектов. | ||||
| +CV | Фото товара | Городские пейзажи | Автономное вождение | Семантическая сегментация | Ссылка |
| Описание | Набор данных для понимания городских сцен с аннотациями на уровне пикселей для 30 классов. | ||||
| +CV | Фото товара | МНИСТ | Общие | Классификация цифр | Ссылка |
| Описание | Набор данных рукописных цифр с 60 000 обучающих и 10 000 тестовых изображений размером 28x28 пикселей. | ||||
| +CV | Фото товара | Мода-МНИСТ | Ритейл | Классификация изображений | Ссылка |
| Описание | Набор данных изображений статей Zalando в том же формате, что и MNIST, используемый в качестве замены для сравнительного анализа. | ||||
| +НЛП | Аудио | ЛибриРечь | Общие | ASR | Ссылка |
| Описание | Корпус прочитанной английской речи, составленный из аудиокниг, включающий 1000 часов устной речи и сопутствующих текстов. | ||||
| +НЛП | Аудио | ТЭД-ЛИУМ | Общие | ASR | Ссылка |
| Описание | Транскрибированные выступления на TED со звуком и согласованные транскрипции для исследований распознавания речи. | ||||
| +НЛП | Аудио | ТИМИТ | Общие | Распознавание фонем | Ссылка |
| Описание | Фонетическая транскрипция речи носителей американского варианта английского языка, широко используемая для задач распознавания фонем. | ||||
| +НЛП | Аудио | Общий голос | Общие | ASR | Ссылка |
| Описание | Многоязычный корпус прочитанной речи, предоставленный добровольцами со всего мира. | ||||
| +НЛП | Аудио | VoxCeleb | Общие | Распознавание спикеров | Ссылка |
| Описание | Крупномасштабный набор данных для идентификации говорящих, собранный из видеороликов на YouTube. | ||||
| +НЛП | Текст | Дамп Википедии | Общие | Языковое моделирование | Ссылка |
| Описание | Полные текстовые дампы статей Википедии, регулярно обновляемые, используемые для предварительной подготовки языковых моделей. | ||||
| +НЛП | Текст | Гигаворд | Новости | Языковое моделирование | Ссылка |
| Описание | Полный архив текстовых данных новостных лент нескольких информационных агентств. | ||||
| +НЛП | Текст | IMDB Отзывы | Развлечение | Анализ настроений | Ссылка |
| Описание | Большой набор данных обзоров фильмов для бинарной классификации настроений. | ||||
| +CV | Видео | Кинетика-700 | Общие | Распознавание действий | Ссылка |
| Описание | Крупномасштабный, высококачественный набор видеоклипов YouTube, охватывающий 700 классов человеческих действий. | ||||
| +CV | Видео | UCF101 | Общие | Распознавание действий | Ссылка |
| Описание | Набор данных реалистичных видеороликов с действиями, включающий 101 категорию. | ||||
| +CV | Видео | HMDB51 | Общие | Распознавание действий | Ссылка |
| Описание | Большая база данных видеозаписей движений человека с 51 категорией действий. | ||||
| Описание | База данных фотографий лиц, предназначенная для изучения распознавания лиц без ограничений. | ||||
| +CV | Фото товара | CASIA-WebFace | Общие | Распознавание лиц | Ссылка |
| Описание | Набор данных с миллионами изображений лиц для обучения моделей глубокого распознавания лиц. | ||||
| +НЛП | Текст | команда | Общие | Понимание прочитанного | Ссылка |
| Описание | Набор данных ответов на вопросы Стэнфордского университета: вопросы, заданные участниками краудворкинга в наборе статей Википедии. | ||||
| Описание | Набор данных для машинного понимания с вопросами и ответами на основе новостных статей CNN. | ||||
| +НЛП | Текст | МультиNLI | Общие | Логический вывод на естественном языке | Ссылка |
| Описание | Набор данных для вывода пар предложений на естественном языке в различных жанрах. | ||||
| +НЛП | Текст | СНЛИ | Общие | Логический вывод на естественном языке | Ссылка |
| Описание | Корпус выводов на естественном языке Стэнфорда с парами предложений, помеченными как вывод, противоречие или нейтральный. | ||||
| Описание | Коллекция из более чем 100 миллионов токенов, извлеченных из набора проверенных хороших и избранных статей в Википедии. | ||||
| Описание | Набор данных из 16 185 изображений 196 классов автомобилей. | ||||
| +CV | Фото товара | Оксфордские цветы 102 | ботаника | Детальная классификация | Ссылка |
| Описание | 102 категории цветов, наиболее часто встречающихся в Соединенном Королевстве. | ||||
| +CV | Фото товара | СИФАР-10 | Общие | Классификация изображений | Ссылка |
| Описание | Изображения 10 классов: самолет, автомобиль, птица, кошка, олень, собака, лягушка, лошадь, корабль и грузовик. | ||||
| +CV | Фото товара | СИФАР-100 | Общие | Классификация изображений | Ссылка |
| Описание | Набор данных, аналогичный CIFAR-10, но со 100 мелкозернистыми классами. | ||||
| +CV | Фото товара | Расположение человека VOC | Общие | Оценка позы | Ссылка |
| Описание | Часть PASCAL VOC, посвященная аннотациям компоновки человека, таким как голова, руки и ноги. | ||||
| +CV | Фото товара | Поза человека MPII | Общие | Оценка позы | Ссылка |
| Описание | Около 25 000 изображений, содержащих более 40 000 человек с аннотированными суставами тела. | ||||
| Описание | Коллекция статей новостной ленты Reuters для исследования категоризации текстов. | ||||
| +НЛП | Текст | 20 групп новостей | Общие | Классификация текста | Ссылка |
| Описание | Коллекция из 20 000 документов групп новостей, разделенных на 20 различных групп новостей. | ||||