4 января 2022

15 лучших наборов данных НЛП для обучения моделей обработки естественного языка

Обработка естественного языка - жизненно важная часть брони машинного обучения. Однако для правильной работы модели требуются огромные объемы данных и обучение. Одна из существенных проблем с НЛП - отсутствие обучающих наборов данных, которые могут охватывать обширные области интересов в предметной области.

Если вы только начинаете в этой обширной области, вам может показаться сложным и практически избыточным создание наборов данных. Особенно когда есть качество НЛП наборы данных, доступные для обучения ваших моделей машинного обучения в зависимости от их назначения.

Ожидается, что рынок НЛП будет расти в среднем на 11.7% в течение 2018 и 2026 годов, чтобы достичь 28.6 млрд. Долларов к 2026 году. Благодаря растущему спросу на НЛП и машинное обучение теперь можно получить качественные наборы данных для анализа настроений, обзоров, анализа вопросов и ответов и наборов данных для анализа речи.

Наборы данных НЛП для машинного обучения, которому можно доверять

Поскольку бесчисленные наборы данных, ориентированные на различные потребности, выпускаются почти каждый день, получить доступ к качественным, надежным и лучшим наборам данных может быть непросто. Здесь мы упростили для вас работу, поскольку представили вам тщательно отобранные наборы данных, разделенные по категориям, которые они обслуживают.

Общие

Спамбаза UCI (Ссылка)

Spambase, созданная в Hewlett-Packard Labs, содержит коллекцию спам-писем от пользователей с целью разработки персонализированного спам-фильтра. Он содержит более 4600 наблюдений из сообщений электронной почты, из которых около 1820 являются спамом.

Набор данных Enron (Ссылка)

Набор данных Enron содержит обширную коллекцию анонимных «настоящих» электронных писем, доступных общественности для обучения их моделям машинного обучения. Он может похвастаться более чем полмиллионом электронных писем от более чем 150 пользователей, в основном высшего руководства Enron. Этот набор данных доступен для использования как в структурированном, так и в неструктурированном формате. Чтобы упорядочить неструктурированные данные, вы должны применить методы обработки данных.

Набор данных Recommender Systems (Ссылка)

Набор данных Recommender System - это огромная коллекция различных наборов данных, содержащих различные функции, такие как,

Отзывы о продукте
Звездные рейтинги
Фитнес-трекинг
Данные песни
Социальные сети
Timestamps
Взаимодействие с пользователем / предметом
Данные GPS

Анализ настроений

Словари для кино и финансов (Ссылка)

Набор данных «Словари для фильмов и финансов» содержит тематические словари для положительной или отрицательной полярности в финансовой информации и обзорах фильмов. Эти словари взяты из заполнений IMDb и US Form-8.

Настроение 140 (Ссылка)

Sentiment 140 содержит более 160,000 6 твитов с различными смайликами, разбитыми по XNUMX различным полям: дата твита, полярность, текст, имя пользователя, идентификатор и запрос. Этот набор данных позволяет вам узнать настроение бренда, продукта или даже темы на основе активности в Twitter. Поскольку этот набор данных создается автоматически, в отличие от других твитов, аннотированных людьми, он классифицирует твиты с положительными и отрицательными эмоциями как неблагоприятные.

Набор данных Multi-Domain Sentiment (Ссылка)

Этот мультидоменный набор данных настроений представляет собой хранилище обзоров Amazon для различных продуктов. Некоторые категории товаров, например книги, имеют тысячи отзывов, в то время как у других всего несколько сотен обзоров. Кроме того, обзоры со звездным рейтингом могут быть преобразованы в бинарные метки.

Давайте сегодня обсудим ваши требования к данным для обучения ИИ.

Текст

Корпус Wiki QA (Ссылка)

WiKi QA Corpus, созданный для помощи в исследовании вопросов и ответов в открытом доступе, является одним из самых обширных общедоступных наборов данных. Скомпилированный на основе журналов запросов поисковой системы Bing, он состоит из пар вопросов и ответов. В нем более 3000 вопросов и 1500 предложений с пометками для ответов.

Набор данных отчетов о юридических делах (Ссылка)

Набор данных Legal Case Reports содержит 4000 судебных дел и может использоваться для обучения автоматическому суммированию текста и анализу цитирования. Используются каждый документ, крылатые фразы, классы цитирования, ключевые фразы для цитирования и многое другое.

Опасность (Ссылка)

Набор данных Jeopardy - это сборник из более чем 200,000 XNUMX вопросов, представленных в популярном телешоу-викторине, собранных пользователем Reddit. Каждая точка данных классифицируется по дате выхода в эфир, номеру серии, значению, раунду и вопросу / ответу.

Аудио Речь

Разговорный корпус Википедии (Ссылка)

Этот набор данных идеально подходит для всех, кто хочет выйти за рамки английского языка. В этом наборе данных есть коллекция статей на голландском, немецком и английском языках. В нем представлен широкий спектр тем и набор ораторов, рассчитанный на сотни часов.

2000 HUB5 Английский (Ссылка)

Набор данных 2000 HUB5 English содержит 40 стенограмм телефонных разговоров на английском языке. Данные предоставлены Национальным институтом стандартов и технологий, и его основное внимание уделяется распознаванию разговорной речи и преобразованию речи в текст.

ЛибриРечь (Ссылка)

Набор данных LibriSpeech представляет собой набор почти 1000 часов английской речи, взятых и должным образом разбитых по темам на главы из аудиокниг, что делает его идеальным инструментом для обработки естественного языка.

Отзывы

Yelp Отзывы (Ссылка)

Набор данных Yelp содержит обширную коллекцию из около 8.5 миллионов отзывов более 160,000 компаний, их обзоров и пользовательских данных. Эти обзоры можно использовать для обучения ваших моделей анализу настроений. Кроме того, в этом наборе данных также содержится более 200,000 XNUMX изображений восьми мегаполисов.

IMDB Отзывы (Ссылка)

Обзоры IMDB являются одними из самых популярных наборов данных, содержащих информацию об актерах, рейтинги, описание и жанры для более чем 50 тысяч фильмов. Этот набор данных можно использовать для тестирования и обучения ваших моделей машинного обучения.

Набор данных обзоров и рейтингов Amazon (Ссылка)

Набор данных обзоров и рейтингов Amazon содержит ценную коллекцию метаданных и обзоров различных продуктов Amazon, собранных с 1996 по 2014 год - около 142.8 миллиона записей. Метаданные включают цену, описание продукта, бренд, категорию и многое другое, в то время как отзывы содержат качество текста, полезность текста, рейтинги и многое другое.

Итак, какой набор данных вы выбрали для обучения своей модели машинного обучения?

По ходу дела мы оставим вас с профи.

Обязательно внимательно изучите файл README, прежде чем выбирать набор данных НЛП для своих нужд. Набор данных будет содержать всю необходимую информацию, которая может вам потребоваться, такую как содержимое набора данных, различные параметры, по которым данные были категоризированы, и возможные варианты использования набора данных.

Независимо от моделей, которые вы создаете, есть захватывающая перспектива более тесной и неотъемлемой интеграции наших машин в нашу жизнь. Благодаря НЛП возможности для бизнеса, кино, распознавания речи, финансов и многого другого расширяются во много раз. Если вы ищете больше таких наборов данных Нажмите здесь.

Социальная Поделиться

Поговорить с экспертом

Имя*
Фамилия*
Эл. адрес*
Телефон*
Компания*
Страна*
Страна
Комментарии*
Регистрируясь, я соглашаюсь с Shaip Персональные данные и Условия Предоставления Услуг и даю свое согласие на получение маркетинговых сообщений B2B от Shaip.
ЗАЩИТНЫЙ

Скачать бесплатную книгу

Вам также может понравиться

15 лучших наборов данных НЛП для обучения моделей обработки естественного языка

Наборы данных НЛП для машинного обучения, которому можно доверять

Общие

Спамбаза UCI (Ссылка)

Набор данных Enron (Ссылка)

Набор данных Recommender Systems (Ссылка)

Анализ настроений

Словари для кино и финансов (Ссылка)

Настроение 140 (Ссылка)

Набор данных Multi-Domain Sentiment (Ссылка)

Текст

Корпус Wiki QA (Ссылка)

Набор данных отчетов о юридических делах (Ссылка)

Опасность (Ссылка)

Аудио Речь

Разговорный корпус Википедии (Ссылка)

2000 HUB5 Английский (Ссылка)

ЛибриРечь (Ссылка)

Отзывы

Yelp Отзывы (Ссылка)

IMDB Отзывы (Ссылка)

Набор данных обзоров и рейтингов Amazon (Ссылка)

Социальная Поделиться

Поговорить с экспертом

Службы данных AI

Специальность

Промышленный дизайн

Продукция

Компания

Полезные ресурсы

Свяжитесь с нами