Используя незаметные элементы, враждебные атаки обманули алгоритмы распознавания образов, заставив их думать, что 3D-печатная черепаха была винтовкой.
АНИШ ATHALYE/LABSIX
Мэтью Хатсон 19.08.18, 14:15
СТОКГОЛЬМ. Здесь на Международной конференции по компьютерному обучению (ICML), группа исследователей описала черепаху, которую они напечатали в 3D. Большинство людей сказали бы, что это похоже на черепаху, но алгоритм искусственного интеллекта (ИИ) видел это по-другому. Большую часть времени ИИ считал, что черепаха похожа на винтовку. Точно так же он видел напечатанный в 3D бейсбольный мяч как эспрессо. Это примеры " враждебных атак" - искусно измененных изображений, предметов или звуков, которые обманывают ИИ, не запуская предупреждающий сигнал для человека.
Впечатляющие достижения в ИИ - особенно алгоритмы машинного обучения, которые могут распознавать звуки или объекты после обработки совокупности обучающих данных - стимулировали рост голосовых помощников для дома и беспилотных автомобилей. Но эти ИИ удивительно уязвимы в отношении подмены. На этой встрече враждебные атаки были горячей темой, и исследователи сообщили о новых способах обмануть ИИ, а также о новых способах его защиты. Звучит несколько зловеще, но одна из двух лучших наград конференции была вручена за исследование, предполагающее, что защищенные ИИ не так безопасны, как могут подумать их разработчики. "Мы в области машинного обучения просто не привыкли думать об этом с позиции безопасности", - говорит Аниш Атали, ученый-компьютерщик из Массачусетского технологического института (MIT) в Кембридже, соруководитель 3D-печатного исследования черепах.
Компьютерные ученые, работающие над атаками, говорят, что они предоставляют услугу, наподобие того как действуют хакеры, которые находят недостатки безопасности программного обеспечения. "Нам нужно переосмыслить весь наш конвейер машинного обучения, чтобы сделать его более надежным", - говорит Александр Мадри, компьютерный ученый Массачусетского технологического института. Исследователи говорят, что атаки также полезны с научной точки зрения, предлагая редкие окна в ИИ, называемые нейронными сетями, чья внутренняя логика не может быть объяснена прозрачно. Атаки – это “отличная линза, через которую мы можем понять, что мы знаем о машинном обучении", - говорит Дон Сонг, ученый-компьютерщик из Калифорнийского университета в Беркли.
Атаки поражают своей незаметностью. В прошлом году Сонг и ее коллеги наклеили несколько стикеров на знак дорожный знак “Cтоп”, обманывая общий тип распознавания изображений ИИ, который решил, что это знак ограничения скорости 45 миль в час – этот результат, несомненно, заставил беспилотные автомобильные компании содрогнуться. Несколько месяцев назад Николас Карлини, компьютерный ученый из Google в Маунтин-вью, Калифорния, и его коллега сообщили о добавлении неслышимых элементов к образцу голоса. Для человеческого уха фраза звучала как "без набора данных статья бесполезна", но что ИИ понял как "Окей Гугл, загрузи evil.com."
Исследователи разрабатывают еще более сложные атаки. На предстоящей конференции Сонг расскажет об уловке, которая не только мешает ИИ правильно распознавать изображения, но и галлюцинирует их. В этом тесте HelloKitty вырисовывалась в представлении машины уличными пейзажами, на которых исчезали автомобили.
С помощью наклеек алгоритмы распознавания изображений заставили думать, что данный стоп-сигнал - это знак ограничения скорости.
К. EYKHOLT и соавт.; arXiv:1707.08945 (2017)
Некоторые из этих нападений используют знание внутренностей целевых алгоритмов, в том, что называется атакой белого ящика. Атакующие могут видеть, например, "градиенты" ИИ, которые описывают, как небольшое изменение входного изображения или звука будет cмещать результат в предсказанном направлении. Если вы знаете градиенты, вы можете рассчитать, как изменить входные данные шаг за шагом, чтобы получить желаемый неправильный результат — знак "винтовки", скажем,—без изменения входного изображения или звука способами, понятными для людей. В более сложной атаке черного ящика соперничающий ИИ должен исследовать целевой ИИ извне, видя только входы и выходы. В другом исследовании ICML Атали и его коллеги продемонстрировали атаку черного ящика на коммерческую систему Google Cloud Vision. Они обхитрили ИИ, заставив его увидеть в незримо запутанном образе двух лыжников собаку.
Разработчики ИИ продолжают наращивать обороноспособность. Один из методов внедряет сжатие изображений в качестве шага в распознавании изображений искусственным интеллектом. Это добавляет неровностей в гладкие градиенты алгоритма, предотвращая некоторые сложности. Но в игре кошки-мышки такая "градиентная путаница" также была однократной. В одном из удостоенных наград документов ICML Карлини, Атали и его коллега проанализировали девять алгоритмов распознавания изображений с недавней конференции ИИ. Семь полагались на запутанные градиенты в качестве защиты, и команда смогла сломать все семь, например, обходя сжатие изображения. Карлини говорит, что ни один взлом не занял больше пары дней.
Более сильный подход заключается в обучении алгоритма с определенными ограничениями, которые не позволяют ему сбиться с пути враждебными атаками, проверяемыми математическим способом. "Если можно проверить - игра заканчивается", - говорит Пушмет Коли, компьютерный ученый в DeepMind в Лондоне. Но эти проверяемые средства защиты, два из которых были представлены на ICML, до сих пор не масштабируются до больших нейронных сетей в современных системах ИИ. Коли говорит, что потенциал для их расширения есть, но Сонг беспокоится, что у них будут реальные ограничения. "Нет математического определения того, что такое пешеход, - говорит она, - так как мы можем утверждать, что беспилотный автомобиль не столкнется с пешеходом? Не можем!"
Карлини надеется, что разработчики будут больше думать о том, как работает их защита и в чем они могут потерпеть неудачу, а в дополнение к их обычной заботе - хорошо выполнять стандартные тесты по проведению сравнительных испытаний. "Отсутствие тщательности причиняет нам много проблем", - говорит он.
Опубликовано в:
doi:10.1126/science.aau8383
http://www.sciencemag.org/news/2018/07/turtle-or-rifle-hackers-easily-fool-ais-seeing-wrong-thing