Аннотация данных – NER

Аннотация по распознаванию именованных сущностей (NER) для клинического НЛП

Нер аннотация

Хорошо аннотированные клинические текстовые данные, соответствующие золотому стандарту, для обучения/разработки клинического НЛП для создания следующей версии Healthcare API.

Важность клинической обработки естественного языка (НЛП) в последние годы все больше признается и привела к революционным достижениям. Клиническое НЛП позволяет компьютерам понять богатый смысл, скрытый за письменным анализом пациента, проведенным врачом. Клиническое НЛП может иметь множество вариантов использования: от анализа здоровья населения до улучшения клинической документации, распознавания речи, сопоставления клинических испытаний и т. д.

Для разработки и обучения любых клинических моделей НЛП вам необходимы точные, объективные и хорошо аннотированные наборы данных в огромных объемах. Золотой стандарт и разнообразные данные помогают повысить точность и оперативность работы механизмов НЛП.

Объём

Количество аннотированных документов
10
Количество страниц с аннотациями
10 +
Продолжительность проекта
< 1 месяцев

Вызовы

Клиент с нетерпением ждал возможности обучить и разработать свою платформу обработки естественного языка (NLP) с использованием новых типов сущностей, а также определить взаимосвязи между различными типами. Более того, они оценивали поставщиков, которые предлагали высокую точность, соблюдали местные законы и обладали необходимыми медицинскими знаниями для аннотирования большого набора данных.

Задача заключалась в том, чтобы пометить и аннотировать до 20,000 15,000 маркированных записей, включая до 5,000 1 маркированных записей из данных электронных медицинских карт (ЭМК) стационарных и амбулаторных больных и до 2 XNUMX маркированных записей из расшифрованных медицинских диктовок, равномерно распределенных по (XNUMX) географическому происхождению и ( XNUMX) имеющиеся медицинские специальности.

Итак, подведем итоги задач:

  • Организуйте разнородные клинические данные для обучения платформе НЛП.
  • Определите взаимосвязь между различными объектами для получения важной информации.
  • Способность и опыт маркировать/аннотировать широкий набор сложных клинических документов.
  • Контроль затрат на маркировку/аннотирование большого объема данных для обучения клиническому НЛП в установленные сроки.
  • Аннотируйте объекты в наборе клинических данных, который состоит на 75 % из записей EHR и на 25 % из записей диктовки.
  • Обезличивание данных во время доставки

Другие проблемы в понимании естественного языка

Двусмысленность

Слова уникальны, но могут иметь разные значения в зависимости от контекста, что приводит к неоднозначности на лексическом, синтаксическом и семантическом уровнях.

синонимия

Мы можем выразить одну и ту же идею разными терминами, которые также являются синонимами: большой и большой означают одно и то же при описании объекта.

Базовая ссылка

Процесс поиска всех выражений, которые относятся к одному и тому же объекту в тексте, называется разрешением кореференции.

Личность, Намерение, Эмоции

В зависимости от личности говорящего, его намерения и эмоции могут выражаться по-разному в отношении одной и той же идеи.

Решения

Большой объем медицинских данных и знаний доступен в виде медицинских документов, но в основном в неструктурированном формате. С помощью аннотации медицинского объекта/аннотации распознавания именованных объектов (NER) Шаип смог преобразовать неструктурированные данные в структурированный формат, аннотируя полезную информацию из различных типов клинических записей. После того как объекты были идентифицированы, отношения между ними также были отображены для выявления важной информации.

Объем работ: аннотация упоминания об организации здравоохранения

9 типов объектов

  • Состояние здоровья
  • Медицинская процедура
  • Анатомическая структура
  • Лекарственное средство
  • Медицинский прибор
  • Измерение тела
  • Злоупотребления психоактивными веществами
  • Лабораторные данные
  • Функция тела

17 модификаторов

  • Модификаторы лекарства: сила, единица измерения, доза, откуда, частота, маршрут, продолжительность, статус.
  • Модификаторы измерения тела: значение, единица измерения, результат
  • Модификаторы процедуры: Метод
    • Модификатор лабораторных данных: лабораторное значение, лабораторная единица, лабораторный результат.
  • Строгость
  • Результат процедуры

27 Отношения и статус пациента

Результат

Аннотированные данные будут использоваться для разработки и обучения клинической платформы НЛП Клиента, которая будет включена в следующую версию API для здравоохранения. Преимущества, которые получил клиент:

  • Помеченные/аннотированные данные соответствуют стандартным рекомендациям Клиента по аннотациям данных.
  • Разнородные наборы данных использовались для обучения платформы НЛП для большей точности.
  • Взаимосвязь между различными объектами, т.е. Анатомическая структура тела <> Медицинское устройство, Медицинское состояние <> Медицинское устройство, Медицинское состояние <> Лекарство, Медицинское состояние <> Процедура, были определены для получения важной медицинской информации.
  • Широкий набор данных, которые были помечены/аннотированы, также были деидентифицированы во время доставки.

Наше сотрудничество с Shaip значительно продвинуло наш проект в области Ambient Technology и диалогового искусственного интеллекта в здравоохранении. Их опыт в создании и расшифровке синтетических диалогов о здравоохранении заложил прочную основу, продемонстрировав потенциал синтетических данных в преодолении нормативных проблем. С Shaip мы преодолели эти препятствия и теперь стали на шаг ближе к реализации нашего видения интуитивных решений в области здравоохранения.

Золотой-5-звездочный

Ускорьте свой разговорный ИИ
разработка приложений на 100%