Пример модели распознавания лиц
Набор данных видео для борьбы с подделкой для моделей искусственного интеллекта по обнаружению мошенничества
Узнайте, как компания Shaip предоставила 25,000 XNUMX высококачественных наборов видеоданных для защиты от подделки, содержащих реальные и воспроизведенные сценарии атак, для обучения моделей ИИ для обнаружения мошенничества.
Обзор проекта
Shaip сотрудничал с ведущей компанией по безопасности ИИ, чтобы предоставить высококачественный готовый набор видеоданных для борьбы с подменой, разработанный для улучшения обучения модели ИИ для обнаружения мошенничества. Набор данных включал 25,000 XNUMX видеороликов, запечатлевших как реальные, так и воспроизведенные сценарии атак, что обеспечило надежные данные для обучения моделей борьбы с подменой.
Каждый из Участники 12,500 предоставил два видео — одно реальное и одно воспроизведение атаки — записанные на Разрешение 720p или выше с частотой кадров 26 кадров в секунду и выше.
Целью проекта было доставить аутентичные и разнообразные наборы данных это позволит моделям ИИ эффективно различать реальные и поддельные биометрические видео, тем самым снижая риски мошенничества в системах биометрической аутентификации.
Основная статистика
25,000 всего видео (12,500 реальные видео, 12,500 повторить видео атаки)
12,500 особенным
новыми участниками
5 этнические группы
представлено в наборе данных
Поэтапная доставка: 4 партии 6,250 видео каждое
Атрибуты метаданных: 12 ключевые параметры для повышения удобства использования набора данных
Область применения набора биометрических данных для борьбы с подменой
Курирование набора данных: Проект был направлен на предоставление высококачественных наборов видеоданных для защиты от подделки, состоящих из реальные и повторные видео атак. Ключевые аспекты включают:
- Участники 12,500 содействие два видео каждое (1 настоящий, 1 поддельный).
- Разнообразие записывающих устройств для повышения адаптивности модели.
- Сбалансированное этническое представительство для обеспечения инклюзивности набора данных.
Сбор метаданных: Каждое видео сопровождалось 12 атрибутов метаданных для повышения удобства использования набора данных.
Проблемы сбора видеоданных
Поддержание сбалансированного распределения данных по этническому признаку при одновременном поиске высококачественных видеоматериалов.
Обеспечение того, чтобы каждый участник предоставил одно реальное и одно воспроизведенное видео атаки для поддержания целостности набора данных.
Соблюдение строгих рекомендаций по FPS (≥ 26), разрешению (≥ 720p) и точности временных меток (+/- 0.5 мс).
Как мы это решили
Shaip предоставил структурированный и высококачественный набор данных для удовлетворения требований проекта. Решение включало:
Курирование наборов данных и контроль качества
- 25,000 видео собрано по всему Фазы 4 для обеспечения стабильного и структурированного потока данных, избегая узких мест.
- Строгий процесс проверки чтобы обеспечить соблюдение FPS, разрешение и точность метаданных. Каждое видео прошло несколько проверок качества перед окончательным принятием.
- Комплексная маркировка метаданных 12 атрибутов:
- Идентификатор/Имя файла
- Тип атаки (реальная/повторная)
- Идентификатор человека
- Разрешение видео
- Продолжительность видео
- Этническая принадлежность субъекта
- Пол субъекта
- Является ли видео оригинальным или поддельным
- Имя устройства/модель
- Человек говорит или нет
- Временная метка Время начала
- Временная метка Время окончания
- Сбалансированное распределение этнических групп: Набор данных был тщательно отобран для поддержания сбалансированного этнического представительства. Распределение включает латиноамериканское (33%), южноазиатское (21%), кавказское (20%), африканское (15%), а также восточноазиатское и ближневосточное население (каждое составляет до 6%).
- Никаких повторяющихся записей для сохранения уникальности набора данных и предотвращения ошибок в обучении ИИ.
- Этнически разнообразный отбор участников создать набор данных, отражающий реальные вариации пользователей, улучшая адаптивность и справедливость модели ИИ.
- Вариант записывающего устройства были включены несколько моделей смартфонов, камер и условий освещения для повышения устойчивости модели к различным условиям окружающей среды.
Результат
Высококачественный, разнообразный набор данных видео для защиты от подделки, предоставленный Shaip, позволил клиенту обучить модели ИИ для точного различения настоящих и поддельных видео в различных сценариях биометрической аутентификации. Набор данных способствовал:
Повышение эффективности ИИ при обнаружении мошеннических биометрических атак.
Повышена способность модели распознавать атаки воспроизведения среди разных этнических групп, устройств и условий окружающей среды.
Набор данных служит основой для будущих усовершенствований и расширений модели защиты от спуфинга.
Набор данных Шаипа сыграл важную роль в улучшении наших моделей антиспуфинга на основе ИИ. Разнообразие, качество и структурированные метаданные обеспечили прочную основу для улучшения обнаружения мошенничества в системах биометрической аутентификации.