Наборы данных здравоохранения

Лучшие наборы медицинских данных с открытым исходным кодом для проектов машинного обучения

  • Глобальная система здравоохранения ежедневно производит огромные объемы медицинских данных, которые потенциально могут быть использованы для приложений машинного обучения. Во всех отраслях данные рассматриваются как ценный актив, который позволяет компаниям получить конкурентное преимущество, и сектор здравоохранения не является исключением.

В этой статье будут кратко рассмотрены препятствия, возникающие при работе с медицинскими данными, и представлен обзор общедоступных наборов медицинских данных.

Важность наборов данных здравоохранения

Важность наборов данных здравоохранения

Наборы медицинских данных — это коллекции информации о пациентах, такие как медицинские записи, диагнозы, методы лечения, генетические данные и подробности образа жизни. Они очень важны в современном мире, где ИИ используется все больше и больше. Вот почему:

Понимание здоровья пациента:

Наборы медицинских данных дают врачам полную картину о состоянии здоровья пациента. Например, данные об истории болезни пациента, принимаемых лекарствах и образе жизни могут помочь предсказать, может ли он заболеть хроническим заболеванием. Это позволяет врачам вмешаться на раннем этапе и составить план лечения специально для этого пациента.

Помощь медицинским исследованиям:

Изучая наборы медицинских данных, исследователи-медики могут узнать, как лечат больных раком и как они выздоравливают. Они могут найти методы лечения, которые лучше всего работают в реальном мире. Например, просматривая образцы опухолей в биобанках и истории лечения пациентов, исследователи могут узнать, как конкретные мутации и раковые белки реагируют на различные методы лечения. Этот подход, основанный на данных, помогает выявить тенденции, которые приводят к улучшению результатов лечения пациентов.

Лучшая диагностика и лечение:

Врачи используют инструменты искусственного интеллекта, чтобы просматривать наборы медицинских данных и находить важные закономерности. Это помогает им лучше диагностировать и лечить заболевания. В радиологии ИИ может обнаруживать проблемы при сканировании быстрее и точнее, чем люди. Это означает, что врачи смогут раньше обнаружить заболевание и начать правильное лечение. Аннотация медицинских изображений может привести к более быстрой и качественной постановке диагноза, что улучшает здоровье пациентов.

Помощь инициативам общественного здравоохранения:

Представьте себе небольшой город, где эксперты здравоохранения использовали наборы данных для отслеживания вспышки гриппа. Они изучили закономерности и нашли пострадавшие области. Обладая этими данными, они начали целевые кампании по вакцинации и санитарному просвещению. Этот подход, основанный на данных, помог сдержать грипп. Он показывает, как наборы медицинских данных могут активно направлять и улучшать инициативы в области общественного здравоохранения.

Наборы медицинских данных с открытым исходным кодом для машинного обучения

Открытые наборы данных необходимы для хорошей работы любой модели машинного обучения. Машинное обучение уже используется в науках о жизни, здравоохранении и медицине и показывает отличные результаты. Это помогает прогнозировать заболевания и понимать, как они распространяются. Машинное обучение также дает идеи о том, как мы можем правильно заботиться о больных, пожилых и нездоровых людях в обществе. Без хороших наборов данных эти модели машинного обучения были бы невозможны.

Общее и общественное здравоохранение:

  • data.gov: фокусируется на данных здравоохранения, ориентированных на США, которые можно легко найти по множеству параметров. Наборы данных предназначены для повышения благосостояния людей, проживающих в США; однако эта информация также может оказаться полезной для других учебных наборов в области исследований или дополнительных областей общественного здравоохранения.
  • КТО: Предлагает наборы данных, сосредоточенные на глобальных приоритетах здравоохранения. Платформа включает в себя удобную функцию поиска и предоставляет ценную информацию вместе с наборами данных для всестороннего понимания рассматриваемых тем.
  • Re3Data: предлагает данные, охватывающие более 2,000 предметов исследования, разделенных на несколько широких областей. Хотя не все наборы данных находятся в свободном доступе, платформа четко указывает структуру и позволяет легко осуществлять поиск на основе таких факторов, как сборы, требования к членству и ограничения авторских прав.
  • База данных человеческой смертности предлагает доступ к данным об уровне смертности, численности населения, а также различной медицинской и демографической статистике для 35 стран.
  • ЧДС: Наборы данных исследований здоровья и развития детей направлены на изучение передачи болезней и здоровья от поколения к поколению. Он включает в себя наборы данных для исследования не только геномной экспрессии, но и влияния социальных, экологических и культурных факторов на болезни и здоровье.
  • Задача Merck по молекулярной активности: Представляет наборы данных, предназначенные для содействия применению машинного обучения при открытии лекарств путем моделирования потенциальных взаимодействий между различными комбинациями молекул.
  • Проект 1000 Геномы: Содержит данные секвенирования 2,500 человек из 26 различных популяций, что делает его одним из крупнейших доступных хранилищ геномов. Доступ к этому международному сотрудничеству можно получить через AWS. (Обратите внимание, что гранты доступны для геномных проектов.)

Наборы данных изображений для наук о жизни, здравоохранения и медицины:

  • Открыть Нейро: Будучи бесплатной и открытой платформой, OpenNeuro предоставляет широкий спектр медицинских изображений, включая данные МРТ, МЭГ, ЭЭГ, иЭЭГ, ЭКоГ, ASL и ПЭТ. Благодаря 563 наборам медицинских данных, охватывающим 19,187 XNUMX участников, он служит бесценным ресурсом для исследователей и специалистов здравоохранения.
  • Оазис: Этот набор данных, созданный на основе серии исследований изображений открытого доступа (OASIS), направлен на бесплатное предоставление данных нейровизуализации общественности на благо научного сообщества. Он охватывает 1,098 субъектов в ходе 2,168 сеансов МР и 1,608 сеансов ПЭТ, предлагая исследователям богатую информацию.
  • Инициатива по нейровизуализации болезни Альцгеймера: Инициатива по нейровизуализации болезни Альцгеймера (ADNI) представляет данные, собранные исследователями со всего мира, которые занимаются определением прогрессирования болезни Альцгеймера. Набор данных включает в себя обширную коллекцию изображений МРТ и ПЭТ, генетической информации, когнитивных тестов, а также биомаркеров спинномозговой жидкости и крови, что способствует многогранному подходу к пониманию этого сложного состояния.

Больничные наборы данных:

  • Каталог данных поставщика: Получите доступ и загрузите полные наборы данных о поставщиках в таких областях, как диализные учреждения, врачебная практика, медицинские услуги на дому, хосписная помощь, больницы, стационарная реабилитация, больницы длительного ухода, дома престарелых с реабилитационными услугами, расходы на посещение врача и каталоги поставщиков.
  • Проект затрат и использования здравоохранения (HCUP): Эта всеобъемлющая общенациональная база данных была создана для выявления, отслеживания и анализа национальных тенденций в использовании медицинских услуг, доступе, стоимости, качестве и результатах. Каждый набор медицинских данных в HCUP содержит информацию на уровне всех посещений пациентов, посещений отделений неотложной помощи и амбулаторных операций в больницах США, предоставляя множество данных для исследователей и политиков.
  • База данных MIMIC Critical Care: Этот общедоступный набор медицинских данных, разработанный Массачусетским технологическим институтом для целей вычислительной физиологии, включает обезличенные данные о состоянии здоровья более чем 40,000 XNUMX пациентов интенсивной терапии. Набор данных MIMIC служит ценным ресурсом для исследователей, изучающих интенсивную терапию и разрабатывающих новые вычислительные методы.

Наборы данных о раке:

  • Медицинские изображения КТ: Этот набор данных, созданный для облегчения использования альтернативных методов изучения тенденций в данных КТ-изображений, включает КТ-сканы онкологических больных с упором на такие факторы, как контрастность, модальность и возраст пациента. Исследователи могут использовать эти данные для разработки новых методов визуализации и анализа закономерностей диагностики и лечения рака.
  • Международное сотрудничество по отчетности о раке (ICCR)): Наборы медицинских данных в рамках ICCR были разработаны и предоставлены для продвижения научно обоснованного подхода к отчетности о раке во всем мире. Стандартизируя отчетность о раке, ICCR стремится улучшить качество и сопоставимость данных о раке между учреждениями и странами.
  • SEER Заболеваемость раком: предоставленные правительством США данные о раке сегментированы с использованием основных демографических различий, таких как раса, пол и возраст. Набор данных SEER позволяет исследователям изучать заболеваемость раком и показатели выживаемости среди различных подгрупп населения, информируя инициативы общественного здравоохранения и приоритеты исследований.
  • Набор данных о раке легких: Этот бесплатный набор данных содержит информацию о случаях рака легких, начиная с 1995 года. Исследователи могут использовать эти данные для изучения долгосрочных тенденций заболеваемости, лечения и исходов рака легких, а также для разработки новых диагностических и прогностических инструментов.

Дополнительные ресурсы для данных о здравоохранении:

  • Kaggle: Универсальный репозиторий наборов данных. Kaggle остается выдающейся платформой для широкого спектра наборов данных, не ограничиваясь сектором здравоохранения. Kaggle идеально подходит для тех, кто занимается различными предметами или нуждается в разнообразных наборах данных для обучения моделей.
  • Subreddit: Сокровищница сообщества. Правильные обсуждения в субреддите могут стать золотой жилой для открытых наборов данных. Для нишевых или конкретных запросов, не рассматриваемых в общедоступных наборах данных, сообщество Reddit может дать ответ.

Ускорьте свои проекты искусственного интеллекта в здравоохранении с помощью готовых к использованию наборов медицинских данных премиум-класса Shaip

Набор данных бесед врача и пациента

В нашем наборе данных есть аудиофайлы разговоров между врачами и пациентами об их здоровье и планах лечения. Файлы охватывают 31 различную медицинскую специальность.

Что включено?

  • 257,977 XNUMX часов настоящих аудиодиктовок врача для тренировки моделей речи в сфере здравоохранения
  • Звук с различных устройств, таких как телефоны, цифровые записывающие устройства, речевые микрофоны и смартфоны.
  • Аудиозаписи и расшифровки, личная информация удалена в соответствии с законами о конфиденциальности.

Набор данных изображений КТ-сканирования

Мы предлагаем первоклассные наборы данных компьютерной томографии для исследований и медицинской диагностики. У нас есть тысячи высококачественных изображений реальных пациентов, обработанных с использованием новейших технологий. Наши наборы данных помогают врачам и исследователям лучше понять различные проблемы со здоровьем, такие как рак, заболевания головного мозга и болезни сердца.

Данные показывают, что наиболее распространенными являются компьютерные томографии грудной клетки (6000) и головы (4350), при этом значительное количество сканирований также выполняется для брюшной полости, таза и других частей тела. Таблица также показывает, что некоторые специализированные исследования, такие как КТ Covid, HRCT и ангиопульмония, в основном проводятся в Индии, Азии, Европе и других странах.

Набор данных электронных медицинских карт (EHR)

Электронные медицинские карты (ЭМК) — это цифровые версии истории болезни пациента. Они включают в себя такую ​​информацию, как диагнозы, лекарства, планы лечения, даты иммунизации, аллергии, медицинские изображения (например, компьютерная томография, МРТ и рентген), лабораторные анализы и многое другое.

Возможности нашего готового к использованию набора данных EHR:

  • Более 5.1 миллиона записей и аудиофайлов врачей, охватывающих 31 медицинскую специальность.
  • Аутентичные медицинские записи идеально подходят для обучения клиническому НЛП и другим моделям документального искусственного интеллекта.
  • Метаданные, включая анонимизированный MRN, даты поступления и выписки, продолжительность пребывания, пол, класс пациента, плательщика, финансовый класс, состояние, порядок выписки, возраст, DRG, описание DRG, возмещение, AMLOS, GMLOS, риск смертности, тяжесть заболевания, окунь и почтовый индекс больницы
  • Записи, охватывающие все классы пациентов: стационарные, амбулаторные (клинические, реабилитационные, периодические, хирургические дневные стационары) и неотложную помощь.
  • Документы с личной информацией (PII) отредактированы в соответствии с правилами HIPAA Safe Harbor.

Набор данных изображений МРТ

Мы поставляем наборы данных МРТ премиум-класса для поддержки медицинских исследований и диагностики. Наша обширная коллекция включает в себя тысячи изображений реальных пациентов в высоком разрешении, обработанных с использованием передовых методов. Используя наши наборы данных, медицинские работники и исследователи могут углубить свое понимание широкого спектра заболеваний, что в конечном итоге приведет к улучшению результатов лечения пациентов.

Набор данных МРТ-изображений различных частей тела, при этом позвоночник и мозг имеют наибольшее количество - по 5000 каждый. Данные распространяются по регионам Индии, Центральной Азии и Европы, а также Центральной Азии.

Набор данных рентгеновского изображения

Наборы рентгеновских изображений лучшего качества для исследований и медицинской диагностики. У нас есть тысячи изображений реальных пациентов в высоком разрешении, обработанных с использованием новейших технологий. С Shaip вы можете получить доступ к надежным медицинским данным, чтобы улучшить ваши исследования и результаты лечения пациентов.

Распределение набора рентгеновских данных по различным частям тела, при этом в грудной клетке наибольшее количество - 1000 - в Центральной Азии. Нижние и верхние конечности насчитывают по 850 штук каждая, распределенных между Центральной Азией и регионами Центральной Азии и Европы.

Социальная Поделиться