Аннотация данных – NER
Аннотация по распознаванию именованных сущностей (NER) для клинического НЛП
Хорошо аннотированные клинические текстовые данные, соответствующие золотому стандарту, для обучения/разработки клинического НЛП для создания следующей версии Healthcare API.
Важность клинической обработки естественного языка (НЛП) в последние годы все больше признается и привела к революционным достижениям. Клиническое НЛП позволяет компьютерам понять богатый смысл, скрытый за письменным анализом пациента, проведенным врачом. Клиническое НЛП может иметь множество вариантов использования: от анализа здоровья населения до улучшения клинической документации, распознавания речи, сопоставления клинических испытаний и т. д.
Для разработки и обучения любых клинических моделей НЛП вам необходимы точные, объективные и хорошо аннотированные наборы данных в огромных объемах. Золотой стандарт и разнообразные данные помогают повысить точность и оперативность работы механизмов НЛП.
Объём
Вызовы
Клиент с нетерпением ждал возможности обучить и разработать свою платформу обработки естественного языка (NLP) с использованием новых типов сущностей, а также определить взаимосвязи между различными типами. Более того, они оценивали поставщиков, которые предлагали высокую точность, соблюдали местные законы и обладали необходимыми медицинскими знаниями для аннотирования большого набора данных.
Задача заключалась в том, чтобы пометить и аннотировать до 20,000 15,000 маркированных записей, включая до 5,000 1 маркированных записей из данных электронных медицинских карт (ЭМК) стационарных и амбулаторных больных и до 2 XNUMX маркированных записей из расшифрованных медицинских диктовок, равномерно распределенных по (XNUMX) географическому происхождению и ( XNUMX) имеющиеся медицинские специальности.
Итак, подведем итоги задач:
- Организуйте разнородные клинические данные для обучения платформе НЛП.
- Определите взаимосвязь между различными объектами для получения важной информации.
- Способность и опыт маркировать/аннотировать широкий набор сложных клинических документов.
- Контроль затрат на маркировку/аннотирование большого объема данных для обучения клиническому НЛП в установленные сроки.
- Аннотируйте объекты в наборе клинических данных, который состоит на 75 % из записей EHR и на 25 % из записей диктовки.
- Обезличивание данных во время доставки
Другие проблемы в понимании естественного языка
Слова уникальны, но могут иметь разные значения в зависимости от контекста, что приводит к неоднозначности на лексическом, синтаксическом и семантическом уровнях.
Мы можем выразить одну и ту же идею разными терминами, которые также являются синонимами: большой и большой означают одно и то же при описании объекта.
Процесс поиска всех выражений, которые относятся к одному и тому же объекту в тексте, называется разрешением кореференции.
В зависимости от личности говорящего, его намерения и эмоции могут выражаться по-разному в отношении одной и той же идеи.
Решения
Большой объем медицинских данных и знаний доступен в виде медицинских документов, но в основном в неструктурированном формате. С помощью аннотации медицинского объекта/аннотации распознавания именованных объектов (NER) Шаип смог преобразовать неструктурированные данные в структурированный формат, аннотируя полезную информацию из различных типов клинических записей. После того как объекты были идентифицированы, отношения между ними также были отображены для выявления важной информации.
Объем работ: аннотация упоминания об организации здравоохранения
9 типов объектов
- Состояние здоровья
- Медицинская процедура
- Анатомическая структура
- Лекарственное средство
- Медицинский прибор
- Измерение тела
- Злоупотребления психоактивными веществами
- Лабораторные данные
- Функция тела
17 модификаторов
- Модификаторы лекарства: сила, единица измерения, доза, откуда, частота, маршрут, продолжительность, статус.
- Модификаторы измерения тела: значение, единица измерения, результат
- Модификаторы процедуры: Метод
• Модификатор лабораторных данных: лабораторное значение, лабораторная единица, лабораторный результат. - Строгость
- Результат процедуры
27 Отношения и статус пациента
Результат
Аннотированные данные будут использоваться для разработки и обучения клинической платформы НЛП Клиента, которая будет включена в следующую версию API для здравоохранения. Преимущества, которые получил клиент:
- Помеченные/аннотированные данные соответствуют стандартным рекомендациям Клиента по аннотациям данных.
- Разнородные наборы данных использовались для обучения платформы НЛП для большей точности.
- Взаимосвязь между различными объектами, т.е. Анатомическая структура тела <> Медицинское устройство, Медицинское состояние <> Медицинское устройство, Медицинское состояние <> Лекарство, Медицинское состояние <> Процедура, были определены для получения важной медицинской информации.
- Широкий набор данных, которые были помечены/аннотированы, также были деидентифицированы во время доставки.
Наше сотрудничество с Shaip значительно продвинуло наш проект в области Ambient Technology и диалогового искусственного интеллекта в здравоохранении. Их опыт в создании и расшифровке синтетических диалогов о здравоохранении заложил прочную основу, продемонстрировав потенциал синтетических данных в преодолении нормативных проблем. С Shaip мы преодолели эти препятствия и теперь стали на шаг ближе к реализации нашего видения интуитивных решений в области здравоохранения.