Синтетические данные

Что означают синтетические данные в эпоху проблем конфиденциальности данных

Принятие решений на основе данных сегодня является мантрой успеха и совершенства предприятий. От финансовых технологий и производства до розничной торговли и цепочек поставок — каждая отрасль осваивает волну больших данных и принимает решения на основе статистики с помощью своих передовых аналитических моделей и алгоритмов. В сфере здравоохранения это становится еще более полезным и спасающим жизни, служа основой инноваций и научных достижений. 

С такими огромными масштабами возникают и проблемы. Поскольку спрос на медицинские данные для различных целей растет, вероятность утечки данных и неправомерного использования конфиденциальной информации также растет. А Отчет за 2023 год показывает что было украдено более 133 миллионов медицинских записей и данных, что установило новый рекорд по утечкам данных в здравоохранении. 

Принятие постановления HIPAA стало обнадеживающим шагом в оптимизации конфиденциальность медицинских данных, что в одиночку и существенно сокращение утечек данных на 48%. Отчеты также показывают, что 61% всех утечек данных указывают на халатность со стороны сотрудников и специалистов в этой области. 

Для дальнейшего сдерживания таких атак и массового выявления уязвимостей прибывает синтетические данные пациентов. Как говорится: «Современные проблемы требуют современных решений», начало синтетические данные, здравоохранение позволяет медицинским работникам уточнять данные пациентов и использовать модели искусственного интеллекта для получения свежих данных.

В этой статье мы углубимся в понимание того, что генерация синтетических данных это все и его множество аспектов. 

Синтетические данные пациентов: что это такое?

Синтез – это процесс создания чего-то нового путем объединения существующих элементов. В том же контексте синтетические данные пациентов относятся к искусственно созданным данным на основе уже существующих реальных данных пациентов.

В этом процессе статистические модели и алгоритмы изучают большие объемы данных пациентов, наблюдают закономерности и характеристики и генерируют наборы данных, имитирующие реальные данные. Некоторые из распространенных методов, используемых при создании искусственных данных о пациентах, включают:

  • Генеративно-состязательные сети (GNN)
  • Статистические модели 
  • Методы анонимизации данных и многое другое

Синтетические данные — отличный и надежный метод, позволяющий обойти проблемы конфиденциальности, связанные с вероятностью раскрытия информации о пациенте, которую можно повторно идентифицировать. Чтобы понять преимущества таких данных, давайте рассмотрим некоторые из наиболее известных случаев использования.

Варианты использования синтетических данных

Варианты использования синтетических данных

Исследования и разработки новых лекарств и лекарств

Генерация данных клинических испытаний является конфиденциальным, и организации часто скрывают важную информацию. Однако для целей исследований и разработок совместимость данных является ключом к прорыву. Генерация синтетических данных может помочь исследователям использовать их для сокрытия важных частей отслеживаемой информации и изолированных данных для совместного изучения реакций на лекарства и противников, составов, результатов корреляций и многого другого.

Конфиденциальность и соответствие нормативным требованиям

Хотя ведутся разговоры о необходимости централизованных облачных систем EHR, существуют также нормативные проблемы, связанные с проблемами конфиденциальности и безопасности. Хотя совместимость данных неизбежна, заинтересованным сторонам в сфере здравоохранения необходимо проявлять максимальную бдительность при обмене данными о пациентах. Синтетические данные могут помочь скрыть деликатные аспекты, сохраняя при этом ключевые точки соприкосновения и выступая в качестве идеальных репрезентативных наборов данных. 

Смягчение предвзятости в здравоохранении

В здравоохранении появление предвзятости является врожденным и неизбежным. Например, если в каком-то географическом регионе произошла эпидемия, затронувшая мужчин в возрасте от 35 до 50 лет, по умолчанию для этого конкретного человека вводится смещение. Хотя женщины и дети по-прежнему уязвимы перед этой вспышкой, исследователям нужна объективная основа для обоснования своих выводов. Синтетические данные могут помочь устранить предвзятость и обеспечить сбалансированное представление. 

Масштабируемые наборы данных для обучения в сфере здравоохранения

Из-за таких правил, как GDPR, HIPAA и других, доступность наборов данных для обучения передовых моделей машинного обучения, ориентированных на здравоохранение, остается ограниченной. Системы искусственного интеллекта (ИИ) и модели машинного обучения требуют огромных объемов обучающих данных, чтобы постоянно совершенствоваться в предоставлении точных результатов.

Генерация синтетических данных является благословением в этой области, позволяя организациям генерировать искусственные данные, адаптированные к их требованиям к объемам, спецификациям и результатам, и одновременно поощрять использование этических синтетических данных

Недостатки и подводные камни синтетических данных здравоохранения

Тот факт, что существуют системы и модули для искусственного создания данных о пациентах и ​​здравоохранении из существующих наборов данных, обнадеживает. Однако эта технология не лишена изрядной доли недостатков. Давайте разберемся, что они собой представляют.

Здесь нет стандартная практика или методы стандартизации - генерировать, обмениваться и оценивать синтетические данные. Это затрудняет сотрудничество и взаимодействие.

На дальнем конце спектра существуют столь же мощные и сложные системы, обратный инженер синтетические данные и раскрывать реальные данные пациентов.

Здесь нет модерация или проверка для обеспечения этичного использования синтетических данных.

Несмотря на то, что это автономный процесс, должен быть человек в петле чтобы гарантировать, что критические элементы, необходимые для задачи или исследования, отражены в модели. Например, если модель заменяет синусит на мигрень в столбце критического состояния, весь процесс исследования поворачивается в новом направлении.

Shaip и его роль в демократизации данных по обучению в сфере здравоохранения

В Шаипе мы не только чтим чудо синтетические данные здравоохранения но будьте также бдительны в отношении узких мест и непредвиденных последствий. Вот почему наш процесс генерации синтетических медицинских данных требует систематической и строгой процедуры для обеспечения масштабируемых и надежных наборов обучающих данных. 


Наши протоколы «человек в цикле» и меры по обеспечению качества дополнительно обеспечивают качество синтетических наборов данных для потребности вашего проекта. Основная ценность синтетических данных заключается в содействии научным достижениям без ущерба для частной жизни человека. Наше видение соответствует этой философии и нашим процедурам ее реализации.

Понравилась статья? Подпишитесь на Шаипа в LinkedIn, чтобы получать больше новостей.

Социальная Поделиться