Ученые-компьютерщики впервые показали, что детекторы дипфейков можно победить

Исследователи показали, что детекторы можно обойти, вставив входные данные, называемые состязательными примерами, в каждый видеокадр. Состязательные примеры – это слегка измененные входные данные, которые заставляют системы искусственного интеллекта, такие как модели машинного обучения, совершать ошибки.

Кроме того, команда показала, что атака все еще работает после сжатия видео.
«Наша работа показывает, что атаки на детекторы дипфейков могут быть реальной угрозой», – сказал Шехзин Хуссейн, доктор компьютерных наук Калифорнийского университета в Сан-Диего.D. студент и первый соавтор статьи WACV. «Что еще более тревожно, мы демонстрируем, что можно создавать надежные состязательные дипфейки, даже когда злоумышленник может не знать о внутренней работе модели машинного обучения, используемой детектором."

В дипфейках лицо объекта модифицируется, чтобы создать убедительно реалистичные кадры событий, которых на самом деле никогда не было. В результате типичные детекторы дипфейков сосредотачиваются на лице в видео: сначала отслеживают его, а затем передают данные обрезанного лица в нейронную сеть, которая определяет, настоящее оно или поддельное. Например, моргание не воспроизводится должным образом в дипфейках, поэтому детекторы фокусируются на движениях глаз как на одном из способов сделать это определение. Современные детекторы Deepfake полагаются на модели машинного обучения для выявления поддельных видео.

Исследователи отмечают, что широкое распространение поддельных видео через платформы социальных сетей вызвало серьезную озабоченность во всем мире, особенно подрывая доверие к цифровым медиа. «Если злоумышленники обладают определенными знаниями о системе обнаружения, они могут разработать входные данные для нацеливания на слепые зоны детектора и их обхода», – сказал Паарт Нихара, второй первый соавтор статьи и студент факультета информатики Калифорнийского университета в Сан-Диего.
Исследователи создали состязательный пример для каждого лица в кадре видео. Но в то время как стандартные операции, такие как сжатие и изменение размера видео, обычно удаляют из изображения враждебные примеры, эти примеры созданы для того, чтобы противостоять этим процессам. Алгоритм атаки делает это, оценивая набор входных преобразований, как модель оценивает изображения как реальные или поддельные.

Оттуда он использует эту оценку для преобразования изображений таким образом, чтобы состязательное изображение оставалось эффективным даже после сжатия и распаковки.??

Затем измененная версия лица вставляется во все видеокадры. Затем процесс повторяется для всех кадров видео, чтобы создать видео с дипфейком. Атака также может быть применена к детекторам, которые работают с целыми видеокадрами, а не только с растениями.

Команда отказалась выпустить свой код, чтобы его не использовали враждебные стороны.
Высокая вероятность успеха

Исследователи протестировали свои атаки в двух сценариях: первый, когда злоумышленники имеют полный доступ к модели детектора, включая конвейер извлечения лиц, а также архитектуру и параметры модели классификации; и тот, где злоумышленники могут запрашивать у машины только €¨ обучающая модель для определения вероятности того, что кадр будет классифицирован как настоящий или поддельный. В первом сценарии вероятность успеха атаки превышает 99 процентов для несжатых видео. Для сжатых видео это было 84.96 процентов. Во втором сценарии вероятность успеха составила 86.43 процента для несжатого и 78.33 процента для сжатых видео.

Это первая работа, демонстрирующая успешные атаки на современные детекторы дипфейков.
«Чтобы использовать эти детекторы дипфейков на практике, мы утверждаем, что важно оценивать их против адаптивного противника, который знает об этой защите и намеренно пытается сорвать эту защиту»,? исследователи пишут. «Мы показываем, что современные методы обнаружения дипфейков можно легко обойти, если злоумышленник полностью или даже частично знает о детекторе."

Для улучшения детекторов исследователи рекомендуют подход, аналогичный так называемому состязательному обучению: во время обучения адаптивный противник продолжает генерировать новые дипфейки, которые могут обойти современные детекторы; и детектор продолжает совершенствоваться, чтобы обнаруживать новые дипфейки.
Состязательные дипфейки: оценка уязвимости детекторов дипфейков по примерам состязательности
* Шехзин Хуссейн, Малхар Джер, Фариназ Кушанфар, Департамент электротехники и вычислительной техники, Калифорнийский университет в Сан-Диего Паарт Нихара, Джулиан Маколи, Департамент компьютерных наук и инженерии, Калифорнийский университет в Сан-Диего