watermarks
Feb. 16th, 2025 03:50 pm![[personal profile]](https://www.dreamwidth.org/img/silk/identity/user.png)
"Can Simple Averaging Defeat Modern Watermarks?"
https://neurips.cc/virtual/2024/poster/94798
Человек нашел,что "водяные знаки" в картинках легко выцепляются усреднением большого количества картинок, и потом вырезаются вычитанием этого среднего. Говорит, что еще они очень чувствительны к позиции, даже тупо отрезав с одной тстороны один-два пикселя, многие водяные знаки перестают распознаваться.
С другой стороны, Мета там выступала (ссылку я похоже не сохранил) со своими водяными знаками, которые должны быть устойчивы ко многим преобразованиям.
"Watermarking Makes Language Models Radioactive"
https://neurips.cc/virtual/2024/poster/93506
С третьей стороны, народ изучает и скрытые пометки в тексте LLMов. И пришли к выводу, что если результаты одних LLMов используются в тренировке других, то пометки первых ЛЛМов вылезут и во вторых. В-общем, с расширением количества в интернетах текстов, сгенерированных ЛЛМами, скоро все их пометки будут везде.
https://neurips.cc/virtual/2024/poster/94798
Человек нашел,что "водяные знаки" в картинках легко выцепляются усреднением большого количества картинок, и потом вырезаются вычитанием этого среднего. Говорит, что еще они очень чувствительны к позиции, даже тупо отрезав с одной тстороны один-два пикселя, многие водяные знаки перестают распознаваться.
С другой стороны, Мета там выступала (ссылку я похоже не сохранил) со своими водяными знаками, которые должны быть устойчивы ко многим преобразованиям.
"Watermarking Makes Language Models Radioactive"
https://neurips.cc/virtual/2024/poster/93506
С третьей стороны, народ изучает и скрытые пометки в тексте LLMов. И пришли к выводу, что если результаты одних LLMов используются в тренировке других, то пометки первых ЛЛМов вылезут и во вторых. В-общем, с расширением количества в интернетах текстов, сгенерированных ЛЛМами, скоро все их пометки будут везде.
no subject
Date: 2025-02-17 12:38 am (UTC)Вычитание среднего будет работать только если ко всем изображениям прибавляется одинаковый водяной знак. В статье проводится разделение алгоритмов на contect agnostic и content sensitive, но это необязательно. Например, можно создать N разных водяных знаков, которые между собой некоррелированы, и применять один из них, выбранный для каждой новой картинки случайно. Получаем content agnostic метод, против которого описываемая атака не работает (потому что среднее будет к нулю стремиться).
no subject
Date: 2025-02-17 01:29 am (UTC)no subject
Date: 2025-02-17 02:13 am (UTC)Если водяные знаки некоррелированы, их среднее будет стремиться к нулю. Например, так работает GPS. Все спутники передают одновременно и постоянно на одной частоте, каждый модулирует свой псевдослучайный сигнал. На приёмнике стоит двенадцать корреляторов, каждый использует псевдослучайную последовательность своего спутника. Сигналы других спутников ему не мешают, потому что кросс корреляция равна нулю. Если все сигналы усреднить, получится тоже ноль (плюс шум).
no subject
Date: 2025-02-17 04:51 am (UTC)no subject
Date: 2025-02-17 02:14 pm (UTC)Отсутствие корреляции именно это и означает. Там в числителе матожидание произведения отклонений. Псевдослучайные последовательности выбираются так, чтобы в автокорреляционной функции был только один пик, безо всяких лишних полосок.
no subject
Date: 2025-02-17 08:53 pm (UTC)Кстати, интересно, что эти генераторы знаков делают, если скормить им одноцветную картинку? Ведь на ней любые знаки должны быть сразу видны.
no subject
Date: 2025-02-17 09:11 pm (UTC)Проверять на наличие одного из N возможных знаков. Так же как приёмник GPS одновременно принимает и декодирует сигналы нескольких спутников. Число N не обязано быть большим.
В картинках много избыточности, стеганографию прячут в младшие биты и размазывают по площади. На пустом кадре водяной знак может быть видно, особенно если поиграть с уровнями.
no subject
Date: 2025-02-17 09:25 pm (UTC)Для совсем пустой картинки решением может быть ограничивать яркость знака каким-то процентом от перепадов яркости в картинке, тогда пустая картинка просто не пометится (но ее и метить незачем, в ней нет ничего ценного!). Сложнее с картинками с одной тонкой яркой полосой.
Для небольшого числа N можно пытаться для целей взлома групировать тестовые картинки в разных подмножествах и смотреть, что вылазит. Ну и опять же, для целей проверки знаков оно не решает проблемы, что делать с обрезанием (cropping) картинки, которое сдвинет знак.
no subject
Date: 2025-02-17 10:00 pm (UTC)Чтобы заметно увеличить соотношение сигнал/шум (в данном случае водяной знак/исходная картинка), надо усреднить много изображений. Комбинаторика намекает, что количество возможных группировок растёт очень быстро, перебор в лоб вряд ли поможет.
no subject
Date: 2025-02-17 10:33 pm (UTC)Кстати, водяные знаки - это по своей сути и есть стеганография, устойчивая к трансформациям.