Adversarial images - perturbation을 add하여 DNN을 속이는 것이 목적
one-pixel attack이 사람에게 쉽게 인식됨
이 논문에서 attack을 DNN과 사람에게 인식될 수 없도록 improve할 것임
our attack - only 49% 참가자들만 attack을 인식
↔ existing attack - 81.04% 참가자들이 attack을 인식
existing attack | our attack | |
---|---|---|
detect | 99.33% | 100% |
defense | 92% | 95.33% |
화이트 박스 공격은
배포된 모델(예: 입력, 모델 아키텍처 및 가중치 또는 계수와 같은 특정 모델 내부)에 대한 모든 것을 알고 있는 공격입니다.
블랙 박스 공격은
모델의 입력만 알고 출력 레이블이나 신뢰도 점수를 쿼리할 수 있는 오라클이 있는 공격입니다. "오라클"은 이 공간에서 일반적으로 사용되는 용어로, 입력을 제출한 다음 모델 출력을 반환하는 일종의 불투명한 끝점이 있음을 의미합니다.
기존 adversial defend하는 방법
→ add noise to the image using a patch selectiong denoiser