Распознавание именованных сущностей (NER)

Распознавание именованных объектов (NER) — концепция, типы и приложения

Каждый раз, когда мы слышим слово или читаем текст, у нас появляется естественная способность идентифицировать и классифицировать слово по людям, месту, местоположению, ценностям и т. д. Люди могут быстро распознавать слово, классифицировать его и понимать контекст. Например, когда вы слышите слово «Стив Джобс», вы можете сразу же подумать о трех-четырех атрибутах и ​​разделить сущность на категории.

  • Человек: Стив Джобс
  • Компания: Яблоко
  • Местонахождение: Калифорния

Поскольку компьютеры не обладают этой естественной способностью, им требуется наша помощь, чтобы идентифицировать слова или текст и классифицировать их. Это где Признание названного лица (НЭК) вступает в игру.

Давайте кратко разберемся с НЭР и его связью с НЛП.

Что такое распознавание именованных сущностей?

Распознавание именованных объектов является частью обработки естественного языка. Основная цель ЧПО заключается в обработке структурированные и неструктурированные данные и классифицировать эти именованные сущности по предопределенным категориям. Некоторые общие категории включают имя, местоположение, компанию, время, денежные значения, события и многое другое.

Вкратце, NER занимается:

  • Распознавание/обнаружение именованных объектов — идентификация слова или последовательности слов в документе.
  • Классификация именованных объектов — классификация каждого обнаруженного объекта по предопределенным категориям.

Но как НЭР связана с НЛП?

Обработка естественного языка помогает разрабатывать интеллектуальные машины, способные извлекать смысл из речи и текста. Машинное обучение помогает этим интеллектуальным системам продолжать обучение, обучаясь большому количеству естественного языка. наборы данных.

Как правило, НЛП состоит из трех основных категорий:

  • Понимание структуры и правил языка – Синтаксис
  • Вывод значения слов, текста и речи и установление их взаимосвязей – Семантика
  • Идентификация и распознавание произносимых слов и преобразование их в текст - Речь

NER помогает в семантической части НЛП, извлекая значение слов, идентифицируя и находя их на основе их отношений.

Общие примеры NER

Некоторые из распространенных примеров предопределенного категоризация объектов составляют:

Общие примеры Нер Человек: Майкл Джексон, Опра Уинфри, Барак Обама, Сьюзан Сарандон

Местонахождение: Канада, Гонолулу, Бангкок, Бразилия, Кембридж

Организация: Samsung, Disney, Йельский университет, Google

Время: 15.35:12, XNUMX:XNUMX,

Другие категории включают числовые значения, выражение, адреса электронной почты и оборудование.

Неоднозначность в распознавании именованных объектов

Категория, к которой принадлежит термин, интуитивно вполне ясна для человека. Однако с компьютерами дело обстоит иначе — они сталкиваются с проблемами классификации. Например:

Манчестер (организация) выиграл трофей Премьер-лиги, тогда как в следующем предложении организация используется по-другому. Манчестер (Местоположение) была текстильной и промышленной электростанцией.

Ваша модель NER нуждается данные обучения проводить точные извлечение сущности и классификация. Если вы обучаете свою модель шекспировскому английскому, разумеется, она не сможет расшифровать Instagram.

Различные подходы NER

Основная цель модель НЭР заключается в маркировке объектов в текстовых документах и ​​их категоризации. Для этой цели обычно используются следующие три подхода. Однако вы также можете комбинировать один или несколько методов.

Давайте сегодня обсудим ваши требования к данным для обучения ИИ.

Различные подходы к созданию систем NER:

  • Системы на основе словарей

    Система на основе словаря, пожалуй, самый простой и фундаментальный подход к NER. Он будет использовать словарь со многими словами, синонимами и коллекцией словарного запаса. Система проверит, присутствует ли конкретная сущность, присутствующая в тексте, в словаре. С помощью алгоритма сопоставления строк выполняется перекрестная проверка сущностей.

    Одним из недостатков использования этого подхода является необходимость постоянного обновления набора словарных данных для эффективного функционирования модели NER.

  • Системы на основе правил

    В этом подходе информация извлекается на основе набора заранее установленных правил. Используются два основных набора правил,

    Правила на основе шаблонов – Как следует из названия, правило на основе шаблона следует морфологическому шаблону или строке слов, используемых в документе.

    Контекстные правила – Контекстные правила зависят от значения или контекста слова в документе.

  • Системы на основе машинного обучения

    В системах на основе машинного обучения для обнаружения сущностей используется статистическое моделирование. В этом подходе используется представление текстового документа на основе признаков. Вы можете преодолеть несколько недостатков первых двух подходов, поскольку модель может распознавать типы сущностей несмотря на небольшие различия в их написании.

Приложения NER

NER имеет несколько вариантов использования во многих областях, связанных с обработкой естественного языка и созданием обучающих наборов данных для обучение с помощью машины и глубокое обучение решения. Некоторые из приложений NER:

  • Оптимизированная поддержка клиентов

    Система NER может легко выявлять соответствующие жалобы, запросы и отзывы клиентов на основе важной информации, такой как названия продуктов, спецификации, местоположение филиала и т. д. Жалоба или отзыв правильно классифицируются и перенаправляются в нужный отдел путем фильтрации по приоритетным ключевым словам.

  • Эффективные человеческие ресурсы

    NER помогает отделам кадров улучшить процесс найма и сократить сроки за счет быстрого обобщения резюме соискателей. Инструменты NER могут сканировать резюме и извлекать соответствующую информацию — имя, возраст, адрес, квалификацию, колледж и т. д.

    Кроме того, отдел кадров может также использовать инструменты NER для оптимизации внутренних рабочих процессов, фильтруя жалобы сотрудников и пересылая их руководителям соответствующих отделов.

  • Упрощенная классификация контента

    Классификация контента — огромная задача для поставщиков новостей. Классификация контента по разным категориям упрощает обнаружение, получение информации, выявление тенденций и понимание предметов. Именованный Распознавание объектов инструмент может пригодиться поставщикам новостей. Он может сканировать множество статей, определять приоритетные ключевые слова и извлекать информацию на основе лиц, организации, местоположения и многого другого.

  • Оптимизация поисковых систем

    Поисковая оптимизация ЧПО помогает упростить и улучшить скорость и релевантность результатов поиска. Вместо того, чтобы выполнять поисковый запрос для тысяч статей, модель NER может выполнить запрос один раз и сохранить результаты. Таким образом, на основе тегов в поисковом запросе можно быстро подобрать статьи, связанные с запросом.

  • Точная рекомендация по содержанию

    Несколько современных приложений зависят от инструментов NER для обеспечения оптимизированного и индивидуального взаимодействия с клиентами. Например, Netflix предоставляет персонализированные рекомендации на основе истории поиска и просмотров пользователей, используя распознавание именованных объектов.

Распознавание именованных объектов делает ваш обучение с помощью машины модели более эффективны и надежны. Однако вам нужны качественные обучающие наборы данных, чтобы ваши модели работали на оптимальном уровне и достигали намеченных целей. Все, что вам нужно, — это опытный сервисный партнер, который может предоставить вам качественные наборы данных, готовые к использованию. Если это так, Shaip — ваш лучший выбор. Обратитесь к нам, чтобы получить полные наборы данных NER, которые помогут вам разработать эффективные и передовые решения машинного обучения для ваших моделей ИИ.

Социальная Поделиться

Вам также может понравиться