Набор данных НЛП для машинного обучения

15 лучших наборов данных НЛП для обучения моделей обработки естественного языка

Обработка естественного языка - жизненно важная часть брони машинного обучения. Однако для правильной работы модели требуются огромные объемы данных и обучение. Одна из существенных проблем с НЛП - отсутствие обучающих наборов данных, которые могут охватывать обширные области интересов в предметной области.

Если вы только начинаете в этой обширной области, вам может показаться сложным и практически избыточным создание наборов данных. Особенно когда есть качество НЛП наборы данных, доступные для обучения ваших моделей машинного обучения в зависимости от их назначения.

Ожидается, что рынок НЛП будет расти в среднем на 11.7% в течение 2018 и 2026 годов, чтобы достичь 28.6 млрд. Долларов к 2026 году. Благодаря растущему спросу на НЛП и машинное обучение теперь можно получить качественные наборы данных для анализа настроений, обзоров, анализа вопросов и ответов и наборов данных для анализа речи.

Наборы данных НЛП для машинного обучения, которому можно доверять

Поскольку бесчисленные наборы данных, ориентированные на различные потребности, выпускаются почти каждый день, получить доступ к качественным, надежным и лучшим наборам данных может быть непросто. Здесь мы упростили для вас работу, поскольку представили вам тщательно отобранные наборы данных, разделенные по категориям, которые они обслуживают.

Общие

Spambase, созданная в Hewlett-Packard Labs, содержит коллекцию спам-писем от пользователей с целью разработки персонализированного спам-фильтра. Он содержит более 4600 наблюдений из сообщений электронной почты, из которых около 1820 являются спамом.

Набор данных Enron содержит обширную коллекцию анонимных «настоящих» электронных писем, доступных общественности для обучения их моделям машинного обучения. Он может похвастаться более чем полмиллионом электронных писем от более чем 150 пользователей, в основном высшего руководства Enron. Этот набор данных доступен для использования как в структурированном, так и в неструктурированном формате. Чтобы упорядочить неструктурированные данные, вы должны применить методы обработки данных.

Набор данных Recommender System - это огромная коллекция различных наборов данных, содержащих различные функции, такие как,

  • Отзывы о продукте
  • Звездные рейтинги
  • Фитнес-трекинг
  • Данные песни
  • Социальные сети
  • Timestamps
  • Взаимодействие с пользователем / предметом
  • Данные GPS

Анализ настроений

Анализ настроений
Набор данных «Словари для фильмов и финансов» содержит тематические словари для положительной или отрицательной полярности в финансовой информации и обзорах фильмов. Эти словари взяты из заполнений IMDb и US Form-8.

Sentiment 140 содержит более 160,000 6 твитов с различными смайликами, разбитыми по XNUMX различным полям: дата твита, полярность, текст, имя пользователя, идентификатор и запрос. Этот набор данных позволяет вам узнать настроение бренда, продукта или даже темы на основе активности в Twitter. Поскольку этот набор данных создается автоматически, в отличие от других твитов, аннотированных людьми, он классифицирует твиты с положительными и отрицательными эмоциями как неблагоприятные.

Этот мультидоменный набор данных настроений представляет собой хранилище обзоров Amazon для различных продуктов. Некоторые категории товаров, например книги, имеют тысячи отзывов, в то время как у других всего несколько сотен обзоров. Кроме того, обзоры со звездным рейтингом могут быть преобразованы в бинарные метки.

Давайте сегодня обсудим ваши требования к данным для обучения ИИ.

Текст

WiKi QA Corpus, созданный для помощи в исследовании вопросов и ответов в открытом доступе, является одним из самых обширных общедоступных наборов данных. Скомпилированный на основе журналов запросов поисковой системы Bing, он состоит из пар вопросов и ответов. В нем более 3000 вопросов и 1500 предложений с пометками для ответов.

  • Набор данных отчетов о юридических делах (Ссылка)

Набор данных Legal Case Reports содержит 4000 судебных дел и может использоваться для обучения автоматическому суммированию текста и анализу цитирования. Используются каждый документ, крылатые фразы, классы цитирования, ключевые фразы для цитирования и многое другое.

Набор данных Jeopardy - это сборник из более чем 200,000 XNUMX вопросов, представленных в популярном телешоу-викторине, собранных пользователем Reddit. Каждая точка данных классифицируется по дате выхода в эфир, номеру серии, значению, раунду и вопросу / ответу.

Аудио Речь

Аудио речь Этот набор данных идеально подходит для всех, кто хочет выйти за рамки английского языка. В этом наборе данных есть коллекция статей на голландском, немецком и английском языках. В нем представлен широкий спектр тем и набор ораторов, рассчитанный на сотни часов.

Набор данных 2000 HUB5 English содержит 40 стенограмм телефонных разговоров на английском языке. Данные предоставлены Национальным институтом стандартов и технологий, и его основное внимание уделяется распознаванию разговорной речи и преобразованию речи в текст.

Набор данных LibriSpeech представляет собой набор почти 1000 часов английской речи, взятых и должным образом разбитых по темам на главы из аудиокниг, что делает его идеальным инструментом для обработки естественного языка.

Отзывы

Набор данных Yelp содержит обширную коллекцию из около 8.5 миллионов отзывов более 160,000 компаний, их обзоров и пользовательских данных. Эти обзоры можно использовать для обучения ваших моделей анализу настроений. Кроме того, в этом наборе данных также содержится более 200,000 XNUMX изображений восьми мегаполисов.

Обзоры IMDB являются одними из самых популярных наборов данных, содержащих информацию об актерах, рейтинги, описание и жанры для более чем 50 тысяч фильмов. Этот набор данных можно использовать для тестирования и обучения ваших моделей машинного обучения.

  • Набор данных обзоров и рейтингов Amazon (Ссылка)

Набор данных обзоров и рейтингов Amazon содержит ценную коллекцию метаданных и обзоров различных продуктов Amazon, собранных с 1996 по 2014 год - около 142.8 миллиона записей. Метаданные включают цену, описание продукта, бренд, категорию и многое другое, в то время как отзывы содержат качество текста, полезность текста, рейтинги и многое другое.

Итак, какой набор данных вы выбрали для обучения своей модели машинного обучения?

По ходу дела мы оставим вас с профи. 

Обязательно внимательно изучите файл README, прежде чем выбирать набор данных НЛП для своих нужд. Набор данных будет содержать всю необходимую информацию, которая может вам потребоваться, такую ​​как содержимое набора данных, различные параметры, по которым данные были категоризированы, и возможные варианты использования набора данных.

Независимо от моделей, которые вы создаете, есть захватывающая перспектива более тесной и неотъемлемой интеграции наших машин в нашу жизнь. Благодаря НЛП возможности для бизнеса, кино, распознавания речи, финансов и многого другого расширяются во много раз. Если вы ищете больше таких наборов данных Нажмите здесь.

Социальная Поделиться

Вам также может понравиться