Наборы данных NLP лежат в основе многих проектов обработки естественного языка, обеспечивая гибкость для широкого спектра задач, таких как классификация текстов, анализ тональности текста и ответы на вопросы. Например, Blog Authorship Corpus содержит более 681,000 20,000 записей почти XNUMX XNUMX блогеров, что делает его ценным ресурсом для изучения стилей письма, идентификации авторов и многого другого.
Для тех, кто интересуется академическими исследованиями, набор данных arXiv research papers предоставляет доступ к обширной коллекции научных статей по различным дисциплинам, поддерживая сложные задачи обработки естественного языка, такие как анализ цитирования и классификация документов. Набор данных Федерального центра закупок (Federal Procurement Data Center) — ещё один ценный ресурс, предлагающий подробную информацию о федеральных контрактах, идеально подходящий для проектов, связанных с государственными данными и признанием организаций.
Эти наборы данных NLP широко используются для обучения и оценки моделей машинного обучения, помогая исследователям и разработчикам повышать производительность своих систем при решении различных задач NLP. Работаете ли вы с публикациями в блогах, исследовательскими статьями или правительственными данными, эти наборы данных обеспечивают основу для создания надежных и универсальных приложений NLP.
Что такое НЛП?
NLP (Natural Language Processing) помогает компьютерам понимать человеческий язык. Это как научить компьютеры читать, понимать и реагировать на текст и речь так, как это делают люди.
Что может НЛП?
- Превратите беспорядочный текст в организованные данные
- Понять, являются ли комментарии положительными или отрицательными
- Переводить между языками
- Создавайте резюме длинных текстов
- И многое другое!
- Начало работы с НЛП:
Чтобы построить хорошие системы НЛП, вам нужно много примеров для их обучения – точно так же, как люди лучше учатся с большей практикой. Хорошей новостью является то, что есть много бесплатных ресурсов, где вы можете найти эти примеры: Обнимая лицо, Kaggle и GitHub. Доступ к наборам данных с этих платформ легко осуществляется, что ускоряет разработку проектов обработки естественного языка.
Размер и рост рынка НЛП:
По состоянию на 2023 год рынок обработки естественного языка (NLP) оценивался примерно в 26 миллиардов долларов. Ожидается, что он значительно вырастет, с годовым темпом прироста (CAGR) около 30% в период с 2023 по 2030 год. Этот рост обусловлен растущим спросом на приложения NLP в таких отраслях, как здравоохранение, финансы и обслуживание клиентов.
Чтобы выбрать хороший набор данных NLP, примите во внимание следующие факторы:
- Релевантность: : Убедитесь, что набор данных соответствует вашей конкретной задаче или области.
- Размер: Большие наборы данных, как правило, улучшают производительность модели, но при этом следует соблюдать баланс между размером и качеством.
- Разнообразие: Ищите наборы данных с различными стилями языка и контекстами, чтобы повысить надежность модели.
- Компенсация: Проверьте правильность маркировки и точность данных, чтобы избежать ошибок.
- Универсальный доступ: Убедитесь, что набор данных доступен для использования, и рассмотрите любые лицензионные ограничения.
- предварительная обработка: Определите, требует ли набор данных значительной очистки или предварительной обработки.
- Сообщество поддержки: Популярные наборы данных часто имеют больше ресурсов и поддержки сообщества, что может быть полезно.
Оценив эти факторы, вы сможете выбрать набор данных, наилучшим образом соответствующий потребностям вашего проекта. Выбор правильных наборов данных крайне важен для достижения оптимальных результатов в проектах обработки естественного языка, поскольку они напрямую влияют на производительность модели и эффективность обучения.
33 лучших открытых набора данных для обработки естественного языка, которые обязательно нужно посмотреть
Общие
Спамбаза UCI (Ссылка)
Spambase, созданная в Hewlett-Packard Labs, содержит коллекцию спам-писем от пользователей с целью разработки персонализированного спам-фильтра. Он содержит более 4600 наблюдений из сообщений электронной почты, из которых около 1820 являются спамом.
Набор данных Enron (Ссылка)
Набор данных Enron содержит обширную коллекцию анонимизированных «реальных» электронных писем, доступных для публичного использования в целях обучения моделей машинного обучения. Он включает более полумиллиона писем от более чем 150 пользователей, преимущественно высшего руководства Enron. Этот набор данных доступен как в структурированном, так и в неструктурированном формате. Чтобы привести неструктурированные данные в порядок, необходимо применять методы обработки данных.
Набор данных Recommender Systems (Ссылка)
Набор данных Recommender System - это огромная коллекция различных наборов данных, содержащих различные функции, такие как,
- Отзывы о продукте
- Звездные рейтинги
- Фитнес-трекинг
- Данные песни
- Социальные сети
- Timestamps
- Взаимодействие с пользователем / предметом
- Данные GPS
Пенн Трибэнк (Ссылка)
Этот корпус из Wall Street Journal популярен для тестирования моделей маркировки последовательностей.
НЛТК (Ссылка)
Эта библиотека Python предоставляет доступ к более чем 100 корпусам и лексическим ресурсам для обработки естественного языка (NLP). Она также включает книгу NLTK — обучающий курс по использованию библиотеки. NLTK предоставляет доступ к WordNet, большой лексической базе данных английского языка, где такие слова, как существительные, глаголы, прилагательные и наречия, сгруппированы в синсеты на основе общих значений. NLTK также предоставляет аннотированный список корпусов и лексических ресурсов для исследований в области NLP.
Универсальные зависимости (Ссылка)
UD обеспечивает единый способ аннотирования грамматики, используя ресурсы на более чем 100 языках, 200 древовидных структур и поддержку более чем 300 членов сообщества.
Наборы данных анализа настроений
Словари для кино и финансов (Ссылка)
Набор данных «Словари для фильмов и финансов» содержит тематические словари для положительной или отрицательной полярности в финансовой информации и обзорах фильмов. Эти словари взяты из заполнений IMDb и US Form-8.Настроение 140 (Ссылка)
Sentiment 140 содержит более 160,000 6 твитов с различными смайликами, разбитыми по XNUMX различным полям: дата твита, полярность, текст, имя пользователя, идентификатор и запрос. Этот набор данных позволяет вам узнать настроение бренда, продукта или даже темы на основе активности в Twitter. Поскольку этот набор данных создается автоматически, в отличие от других твитов, аннотированных людьми, он классифицирует твиты с положительными и отрицательными эмоциями как неблагоприятные.
Набор данных Multi-Domain Sentiment (Ссылка)
Этот мультидоменный набор данных настроений представляет собой хранилище обзоров Amazon для различных продуктов. Некоторые категории товаров, например книги, имеют тысячи отзывов, в то время как у других всего несколько сотен обзоров. Кроме того, обзоры со звездным рейтингом могут быть преобразованы в бинарные метки.
Стэндфордский банк настроений (Ссылка)
Этот набор данных НЛП от Rotten Tomatoes включает более длинные фразы и более подробные текстовые примеры.
Корпус авторства блога (Ссылка)
В этой коллекции есть посты в блогах объемом почти 1.4 миллиона слов, каждый блог представляет собой отдельный набор данных.
Набор данных OpinRank (Ссылка)
300,000 XNUMX отзывов от Edmunds и TripAdvisor, сгруппированных по моделям автомобилей, местам назначения и отелям.
Текстовый набор данных
Корпус Wiki QA (Ссылка)
WiKi QA Corpus, созданный для помощи в исследовании вопросов и ответов в открытом доступе, является одним из самых обширных общедоступных наборов данных. Скомпилированный на основе журналов запросов поисковой системы Bing, он состоит из пар вопросов и ответов. В нем более 3000 вопросов и 1500 предложений с пометками для ответов.
Набор данных отчетов о юридических делах (Ссылка)
Набор данных Legal Case Reports содержит 4000 судебных дел и может использоваться для обучения автоматическому суммированию текста и анализу цитирования. Используются каждый документ, крылатые фразы, классы цитирования, ключевые фразы для цитирования и многое другое.
Опасность (Ссылка)
Набор данных Jeopardy - это сборник из более чем 200,000 XNUMX вопросов, представленных в популярном телешоу-викторине, собранных пользователем Reddit. Каждая точка данных классифицируется по дате выхода в эфир, номеру серии, значению, раунду и вопросу / ответу.
20 групп новостей (Ссылка)
Коллекция из 20,000 20 документов включает XNUMX групп новостей и тем, подробно описывающих темы от религии до популярных видов спорта.
Набор данных новостей Reuters (Ссылка)
Впервые появившись в 1987 году, этот набор данных был помечен, проиндексирован и скомпилирован для целей машинного обучения.
ArXiv (Ссылка)
Этот обширный набор данных объемом 270 ГБ включает в себя полные тексты всех исследовательских работ arXiv.
Параллельный корпус заседаний Европейского парламента (Ссылка)
Пары предложений из заседаний парламента включают записи на 21 европейском языке, включая некоторые менее распространенные языки для корпусов машинного обучения.
Тест Billion Word (Ссылка)
Этот набор данных для языкового моделирования, полученный на основе сканирования новостей WMT 2011, включает почти один миллиард слов для тестирования инновационных методов языкового моделирования.
Наборы аудиоречевых данных
Разговорный корпус Википедии (Ссылка)
Этот набор данных идеально подходит для всех, кто хочет выйти за рамки английского языка. В этом наборе данных есть коллекция статей на голландском, немецком и английском языках. В нем представлен широкий спектр тем и набор ораторов, рассчитанный на сотни часов.2000 HUB5 Английский (Ссылка)
Набор данных 2000 HUB5 English содержит 40 стенограмм телефонных разговоров на английском языке. Данные предоставлены Национальным институтом стандартов и технологий, и его основное внимание уделяется распознаванию разговорной речи и преобразованию речи в текст.
ЛибриРечь (Ссылка)
Набор данных LibriSpeech представляет собой набор почти 1000 часов английской речи, взятых и должным образом разбитых по темам на главы из аудиокниг, что делает его идеальным инструментом для обработки естественного языка.
Свободный набор данных разговорных цифр (Ссылка)
Этот набор данных НЛП включает более 1,500 записей разговорных цифр на английском языке.
Набор речевых данных M-AI Labs (Ссылка)
Набор данных содержит около 1,000 часов аудио с транскрипцией, охватывающих несколько языков и классифицированных по мужским, женским и смешанным голосам.
База данных шумной речи (ссылка на сайт)
Этот набор данных содержит параллельные шумные и чистые записи речи, предназначенные для разработки программного обеспечения для улучшения речи, а также полезные для тренировки речи в сложных условиях.
Обзоры наборов данных
Yelp Отзывы (Ссылка)
Набор данных Yelp содержит обширную коллекцию из около 8.5 миллионов отзывов более 160,000 компаний, их обзоров и пользовательских данных. Эти обзоры можно использовать для обучения ваших моделей анализу настроений. Кроме того, в этом наборе данных также содержится более 200,000 XNUMX изображений восьми мегаполисов.
IMDB Отзывы (Ссылка)
Обзоры IMDB являются одними из самых популярных наборов данных, содержащих информацию об актерах, рейтинги, описание и жанры для более чем 50 тысяч фильмов. Этот набор данных можно использовать для тестирования и обучения ваших моделей машинного обучения.
Набор данных обзоров и рейтингов Amazon (Ссылка)
Набор данных обзоров и рейтингов Amazon содержит ценную коллекцию метаданных и обзоров различных продуктов Amazon, собранных с 1996 по 2014 год - около 142.8 миллиона записей. Метаданные включают цену, описание продукта, бренд, категорию и многое другое, в то время как отзывы содержат качество текста, полезность текста, рейтинги и многое другое.
Наборы данных вопросов и ответов
Стэнфордский набор данных вопросов и ответов (SQuAD) (Ссылка)
Этот набор данных о понимании прочитанного содержит 100,000 50,000 вопросов, на которые можно ответить, и XNUMX XNUMX вопросов, на которые нет ответа, и все они созданы коллективными работниками Википедии.
Естественные вопросы (Ссылка)
Этот обучающий набор содержит более 300,000 7,800 обучающих примеров, 7,800 примеров разработки и XNUMX тестовых примеров, каждый из которых содержит запрос Google и соответствующую страницу в Википедии.
ВикторинаQA (Ссылка)
Этот сложный набор вопросов включает 950,000 XNUMX пар вопросов контроля качества, включая подмножества, проверенные человеком и сгенерированные машиной.
CLEVR (Композиционный язык и элементарное визуальное мышление) (Ссылка)
Этот набор данных для визуальных ответов на вопросы включает в себя 3D-рендеринговые объекты и тысячи вопросов с подробностями о визуальной сцене.
Итак, какой набор данных вы выбрали для обучения своей модели машинного обучения?
По ходу дела мы оставим вас с профи.
Обязательно внимательно изучите файл README, прежде чем выбирать набор данных НЛП для своих нужд. Набор данных будет содержать всю необходимую информацию, которая может вам потребоваться, такую как содержимое набора данных, различные параметры, по которым данные были категоризированы, и возможные варианты использования набора данных.
Независимо от того, какие модели вы создаете, перед вами открывается захватывающая перспектива более тесной и неотъемлемой интеграции наших машин в нашу жизнь. Благодаря НЛП возможности для бизнеса, кино, распознавания речи, финансов и многого другого увеличиваются во много раз.