Аннотация данных – NER

Аннотация по распознаванию именованных сущностей (NER) для клинического НЛП

Хорошо аннотированные клинические текстовые данные, соответствующие золотому стандарту, для обучения/разработки клинического НЛП для создания следующей версии Healthcare API.

Важность клинической обработки естественного языка (НЛП) в последние годы все больше признается и привела к революционным достижениям. Клиническое НЛП позволяет компьютерам понять богатый смысл, скрытый за письменным анализом пациента, проведенным врачом. Клиническое НЛП может иметь множество вариантов использования: от анализа здоровья населения до улучшения клинической документации, распознавания речи, сопоставления клинических испытаний и т. д.

Для разработки и обучения любых клинических моделей НЛП вам необходимы точные, объективные и хорошо аннотированные наборы данных в огромных объемах. Золотой стандарт и разнообразные данные помогают повысить точность и оперативность работы механизмов НЛП.

Объём

Количество аннотированных документов

Количество страниц с аннотациями

10 +

Продолжительность проекта

< 1 месяцев

Вызовы

Клиент с нетерпением ждал возможности обучить и разработать свою платформу обработки естественного языка (NLP) с использованием новых типов сущностей, а также определить взаимосвязи между различными типами. Более того, они оценивали поставщиков, которые предлагали высокую точность, соблюдали местные законы и обладали необходимыми медицинскими знаниями для аннотирования большого набора данных.

Задача заключалась в том, чтобы пометить и аннотировать до 20,000 15,000 маркированных записей, включая до 5,000 1 маркированных записей из данных электронных медицинских карт (ЭМК) стационарных и амбулаторных больных и до 2 XNUMX маркированных записей из расшифрованных медицинских диктовок, равномерно распределенных по (XNUMX) географическому происхождению и ( XNUMX) имеющиеся медицинские специальности.

Итак, подведем итоги задач:

Организуйте разнородные клинические данные для обучения платформе НЛП.
Определите взаимосвязь между различными объектами для получения важной информации.
Способность и опыт маркировать/аннотировать широкий набор сложных клинических документов.
Контроль затрат на маркировку/аннотирование большого объема данных для обучения клиническому НЛП в установленные сроки.
Аннотируйте объекты в наборе клинических данных, который состоит на 75 % из записей EHR и на 25 % из записей диктовки.
Обезличивание данных во время доставки

Другие проблемы в понимании естественного языка

Двусмысленность

Слова уникальны, но могут иметь разные значения в зависимости от контекста, что приводит к неоднозначности на лексическом, синтаксическом и семантическом уровнях.

синонимия

Мы можем выразить одну и ту же идею разными терминами, которые также являются синонимами: большой и большой означают одно и то же при описании объекта.

Базовая ссылка

Процесс поиска всех выражений, которые относятся к одному и тому же объекту в тексте, называется разрешением кореференции.

Личность, Намерение, Эмоции

В зависимости от личности говорящего, его намерения и эмоции могут выражаться по-разному в отношении одной и той же идеи.

Решения

Большой объем медицинских данных и знаний доступен в виде медицинских документов, но в основном в неструктурированном формате. С помощью аннотации медицинского объекта/аннотации распознавания именованных объектов (NER) Шаип смог преобразовать неструктурированные данные в структурированный формат, аннотируя полезную информацию из различных типов клинических записей. После того как объекты были идентифицированы, отношения между ними также были отображены для выявления важной информации.

Объем работ: аннотация упоминания об организации здравоохранения

9 типов объектов

Состояние здоровья
Медицинская процедура
Анатомическая структура
Лекарственное средство
Медицинский прибор
Измерение тела
Злоупотребления психоактивными веществами
Лабораторные данные
Функция тела

17 модификаторов

Модификаторы лекарства: сила, единица измерения, доза, откуда, частота, маршрут, продолжительность, статус.
Модификаторы измерения тела: значение, единица измерения, результат
Модификаторы процедуры: Метод
• Модификатор лабораторных данных: лабораторное значение, лабораторная единица, лабораторный результат.
Строгость
Результат процедуры

27 Отношения и статус пациента

Результат

Аннотированные данные будут использоваться для разработки и обучения клинической платформы НЛП Клиента, которая будет включена в следующую версию API для здравоохранения. Преимущества, которые получил клиент:

Помеченные/аннотированные данные соответствуют стандартным рекомендациям Клиента по аннотациям данных.
Разнородные наборы данных использовались для обучения платформы НЛП для большей точности.
Взаимосвязь между различными объектами, т.е. Анатомическая структура тела <> Медицинское устройство, Медицинское состояние <> Медицинское устройство, Медицинское состояние <> Лекарство, Медицинское состояние <> Процедура, были определены для получения важной медицинской информации.
Широкий набор данных, которые были помечены/аннотированы, также были деидентифицированы во время доставки.

Наше сотрудничество с Shaip значительно продвинуло наш проект в области Ambient Technology и диалогового искусственного интеллекта в здравоохранении. Их опыт в создании и расшифровке синтетических диалогов о здравоохранении заложил прочную основу, продемонстрировав потенциал синтетических данных в преодолении нормативных проблем. С Shaip мы преодолели эти препятствия и теперь стали на шаг ближе к реализации нашего видения интуитивных решений в области здравоохранения.

Ускорьте свой разговорный ИИ
разработка приложений на 100%

Аннотация данных – NER

Аннотация по распознаванию именованных сущностей (NER) для клинического НЛП

Объём

Вызовы

Решения

9 типов объектов

17 модификаторов

27 Отношения и статус пациента

Результат

Службы данных AI

Специальность

Промышленный дизайн

Продукция

Компания

Полезные ресурсы

Свяжитесь с нами

Сообщите нам больше о себе!