Синтетические беседы о здравоохранении для ASR

Обеспечение развития технологий окружающей среды посредством синтетических разговоров о здравоохранении

Эмбиентная технология

Более 2000 часов аудиоданных, собранных и расшифрованных в клинических условиях.

В быстро развивающейся области разговорного искусственного интеллекта одно из заметных применений находится в секторе здравоохранения, где технология используется для оптимизации взаимодействия поставщика и пациента. Наш клиент, ведущая компания в области медицинских технологий, обратился к Shaip с требованием улучшить их модель автоматического распознавания речи (ASR), чтобы лучше понимать и расшифровывать разговоры между несколькими собеседниками в клинических условиях. Из-за правил конфиденциальности получение реальных диалогов было сложной задачей; следовательно, идея заключалась в том, чтобы создать и расшифровать синтетические, но реалистичные взаимодействия между поставщиками медицинских услуг и пациентами.

Объём

2,000 часов или примерно 12,000 в 24,000 отдельные синтетические взаимодействия 10 средняя продолжительность минут.

Цель

Нашей основной целью было создать около 2,000 часов аудиозаписей, преобразующих от 12,000 24,000 до XNUMX XNUMX тщательно обработанных синтетических взаимодействий, отражающих разнообразие пола, возраста, акцентов и медицинских ролей. Этот всеобъемлющий и достоверный набор данных, предназначенный для имитации реальных клинических диалогов, был создан при строгом соблюдении правил конфиденциальности, таких как HIPAA. Синтетические взаимодействия послужили богатым набором данных, которые сыграли важную роль в обучении и совершенствовании модели ASR нашего клиента, что значительно повысило его навыки в ведении реальных разговоров в клинических условиях.

 

Цели

Вызовы

Соответствие нормативным требованиям

Обеспечение соблюдения законов о конфиденциальности, таких как HIPAA, при одновременном создании реалистичных, но синтетических взаимодействий в сфере здравоохранения может оказаться сложной задачей.

Соответствие нормативным требованиям

Достоверность и разнообразие данных

Создание синтетических взаимодействий, которые точно имитируют реальные клинические диалоги, охватывая при этом широкий спектр сценариев, акцентов, возрастов и медицинских ролей, требует тщательного подхода и глубоких знаний предметной области.

Достоверность и разнообразие данных

Гарантия качества

Достижение высокого уровня точности транскрипции, например целевого показателя точности слов 95 % (WER) и показателя точности тегов 90 % (TER), требует строгих процессов обеспечения качества.

Технические возможности

Обеспечение того, чтобы техническая инфраструктура, включая платформы записи и транскрипции, могла обрабатывать объемы данных и поддерживать качество, является серьезной проблемой.

Набор и обучение ресурсов

Привлечение людей с медицинским образованием для участия в ролевых играх и обеспечение того, чтобы они придерживались реалистичных сценариев, сохраняя при этом естественный ход разговора, может быть довольно сложной задачей. Кроме того, обучение транскрипционистов соблюдению строгих правил качества требует значительных усилий и опыта.

Подход/Решение

Аудио коллекция и транскрипция

  • Создание сценария: Разработаны реалистичные сценарии, отражающие распространенные несрочные состояния, встречающиеся в практике семейной медицины для взрослых, такие как гипертония, диабет и обезболивание.
  • Ролевые игры: Набирали людей с медицинским образованием для ролевых игр в качестве медицинских работников и пациентов, придерживаясь предоставленных сценариев и моделируя реальные клинические беседы.
  • Запись: Использовал мобильное приложение Shaip Work для записи аудио, обеспечивая разнообразное представление участников с точки зрения пола, возраста, акцентов и профессионального опыта.

Валидация и транскрипция

  • Выполнены сценарии проверки для обеспечения точности и качества аудиофайлов.
  • Транскрипция осуществлялась на платформе Bhasha с соблюдением конкретных указаний и обеспечением дословной транскрипции текста с точным дневникированием.
  • Аннотированные метаданные, включая идентификатор говорящего, возраст, пол, родной язык и медицинское образование/опыт, которые имели решающее значение для целей обучения модели клиента.

Гарантия качества

  • Комплексные проверки качества, проведенные CQA и PMO, обеспечили целевой показатель качества транскрипции на уровне 95 % точности слов (WER) и 90 % точности тегов (TER).

Доставка данных

  • Структурировал данные в четкой, организованной форме и доставлял их пакетами вместе с подробными примечаниями к пакетам и каталогами культур.
  • Гарантировалось, что все данные, включая аудиофайлы, транскрипции и метаданные, были точно помечены и отформатированы в соответствии со спецификациями клиента.

Обратная связь и итерация

Установлен надежный цикл обратной связи с клиентом для выявления любых недостатков, обеспечения внесения исправлений и предоставления полного и точного набора данных.

Ключевые достижения

  • Успешный сбор и расшифровка 2000 часов синтетического взаимодействия в сфере здравоохранения.
  • Быстрая и точная транскрипция с замечательной степенью точности, что вносит значительный вклад в достижение цели клиента по улучшению его модели ASR.
  • Продемонстрировал способность Шаипа выполнять крупномасштабные и сложные проекты с тщательным подходом к качеству и точности.

Результат

Тщательно выполненный проект, реализуемый Шаипом, привел к созданию богатого набора данных, который внес значительный вклад в улучшение модели ASR клиента. Синтетические взаимодействия создали реалистичное представление клинических диалогов, помогая клиенту добиться более надежного и надежного речевого обслуживания в медицинских учреждениях. Благодаря структурированному и хорошо скоординированному подходу Шаип обеспечил успешную реализацию сложного проекта в оговоренные сроки, укрепив свой опыт в управлении крупномасштабными проектами диалогового искусственного интеллекта в сфере здравоохранения.

Наше сотрудничество с Shaip значительно продвинуло наш проект в области Ambient Technology и диалогового искусственного интеллекта в здравоохранении. Их опыт в создании и расшифровке синтетических диалогов о здравоохранении заложил прочную основу, продемонстрировав потенциал синтетических данных в преодолении нормативных проблем. С Shaip мы преодолели эти препятствия и теперь стали на шаг ближе к реализации нашего видения интуитивных решений в области здравоохранения.

Золотой-5-звездочный

Ускорьте работу ИИ в сфере здравоохранения
разработка приложений на 100%