OPA2D | Notion

Abstract

Adversarial images - perturbation을 add하여 DNN을 속이는 것이 목적
one-pixel attack이 사람에게 쉽게 인식됨
이 논문에서 attack을 DNN과 사람에게 인식될 수 없도록 improve할 것임
our attack - only 49% 참가자들만 attack을 인식

↔ existing attack - 81.04% 참가자들이 attack을 인식

	existing attack	our attack
detect	99.33%	100%
defense	92%	95.33%

Introduction

DNN은 adversarial images에 vulnerable함

A. Motivation

modified pixel을 human은 인지 못하고 DNN은 attack하게 하도록 하는 게 목적
black-box 환경에서 efficent detection method를 만드는게 목표
adversial image까지도 original image로 분류할 수 있게 defense method를 제안하는 것

black-box attack vs white box attack
- 화이트 박스 공격은
  
  배포된 모델(예: 입력, 모델 아키텍처 및 가중치 또는 계수와 같은 특정 모델 내부)에 대한 모든 것을 알고 있는 공격입니다.
- 블랙 박스 공격은
  
  모델의 입력만 알고 출력 레이블이나 신뢰도 점수를 쿼리할 수 있는 오라클이 있는 공격입니다. "오라클"은 이 공간에서 일반적으로 사용되는 용어로, 입력을 제출한 다음 모델 출력을 반환하는 일종의 불투명한 끝점이 있음을 의미합니다.

기존 adversial defend하는 방법

→ add noise to the image using a patch selectiong denoiser