Пример из практики: лицензирование медицинских наборов данных
Трансформация педиатрической и акушерско-гинекологической помощи посредством точного сбора данных и обучения аннотированию
Раскрытие потенциала медицинских данных: комплексное курирование данных, деидентификация, МКБ-10 и аннотация для превосходного обучения модели ИИ.
Обзор проекта
Shaip сотрудничал с ведущей компанией в области искусственного интеллекта в здравоохранении, чтобы курировать и аннотировать высококачественные обезличенные медицинские наборы данных для обучения продвинутых моделей NLP. Проект был сосредоточен на педиатрии и акушерстве и гинекологии, предоставляя амбулаторные записи, аннотированные кодами МКБ-10 CM, через надежную структуру API.
Набор данных был структурирован для облегчения обучения ИИ на основе реальной медицинской документации, что расширило возможности модели в понимании клинических описаний.
Основная статистика
750 страниц / ~ 300 амбулаторные записи
Объем проекта
| Тип набора данных | Специальные | Объём | Метаданные захвачены | Заметки |
|---|---|---|---|---|
| Медицинские заметки | Педиатрия | 375 страницы (~150 записей) | Имя файла, Специальность, Тип документа, класс пациента (амбулаторный) | Включает разделы «Оценка»/«План» |
| OB-гинеколог | 375 страницы (~150 записей) | |||
| Аннотации | МКБ-10 КМ (2023) | Полный набор данных | Отображение кода через API | Проверка кода кодерами выходит за рамки |
Задачи
Проект представлял собой ряд критических задач, требовавших тщательного планирования и реализации:
Поиск высококачественных амбулаторных записей исключительно по специальностям педиатрия и акушерство и гинекология был сложной задачей. Каждый документ должен был включать ключевые клинические разделы, такие как оценка и план, для поддержки точных аннотаций.
Обеспечение полного удаления всей персонально идентифицируемой информации (PII) при сохранении медицинского контекста было необходимо для соответствия HIPAA. Это требовало детальных проверок для предотвращения любых нарушений конфиденциальности.
Применение точных кодов МКБ-10 КМ (2023) через API было сложным из-за различных стилей повествования и медицинской терминологии. Последовательность и точность кодирования имели решающее значение для обеспечения надежного обучения модели ИИ.
Сбор и проверка метаданных, таких как специальность, тип документа и класс пациента без расхождений, были жизненно важны. Любое несоответствие могло повлиять на обучение модели и удобство использования данных.
Обеспечение того, чтобы все записи были строго амбулаторными, усложняет задачу, поскольку многие клинические документы могут содержать смешанные категории пациентов или неполные разделы.
Для достижения порога точности в 90% требовалось проведение многоуровневых проверок для устранения дубликатов, проверки соответствия специализации и обеспечения деидентификации — с возможностью повторной работы при необходимости.
Решение
Комплексное лицензирование и аннотация данных
- Лицензированные амбулаторные записи педиатра и акушера-гинеколога
- Гарантированное включение критических разделов: главная жалоба, история, ROS, оценка, план
- Аннотация МКБ-10 на основе API (версия 2023 г.)
Деидентификация и соответствие
- Заменены PHI на заполнители (ИМЯ_ПЕРСОНЫ, ДАТА, МЕСТОПОЛОЖЕНИЕ и т. д.)
- Гарантированное соблюдение стандартов конфиденциальности медицинских данных
Маркировка метаданных
- Подробные метаданные, полученные для каждого файла:
-
- Название файла
- Специальность (Педиатрия или Акушер-гинеколог)
- Тип документа (Последующее наблюдение, H&P, Консультация)
- Класс пациента (только амбулаторный)
В Контроле Качества
- Строгие оценки качества с:
- Нет дубликатов записей
- Проверка соответствия спец. требованиям
- Только амбулаторный осмотр
- Проверка согласованности метаданных
- Замена или исправление записей с точностью ниже 90%
Результат
Шаип предоставил структурированный, аннотированный набор данных медицинских заметок, который позволил клиенту:
- Обучение моделей ИИ для точного прогнозирования кода МКБ-10
- Расширить возможности НЛП в реальных сценариях здравоохранения
- Соблюдение стандартов конфиденциальности и нормативных требований
- Масштабирование моделей искусственного интеллекта в здравоохранении в областях педиатрии и акушерства и гинекологии
Структурированный подход Шайпа к курированию и аннотированию наборов данных превзошел наши ожидания. Точность, деидентификация и точность метаданных значительно усилили наш конвейер обучения модели ИИ.