松村響｜宮地研究室

近年, 畳み込みニューラルネットワークは画像認識タスクにおいて優れた性能を発揮している. しかし, 入力画像に人間には認識できない微小な摂動を加えることで意図的に誤分類を引き起こす「敵対的サンプル」に対して脆弱である課題がある. 敵対的サンプルの防御手法として, 入力の前処理や敵対的学習, および異常検知による防御手法が提案されてきた. 異常検知に基づく防御では, Autoencoder(AE) や拡散モデルを用いて, 汚染された入力の異常検知, あるいは誤分類させる摂動の除去が主流である. 拡散モデルは高性能だが, 計算コストが非常に高い. Li らが提案した Defense-VAE 等の従来の AE を用いた防御手法は, 入出力の差分である「再構成誤差」に基づく異常検知や, 再構成によりノイズを除去する. そのため, 再構成誤差を用いる方法は, 誤差を意図的に小さく抑制しつつ分類器を誤認識させる Madry らの PGD 攻撃のような巧妙な攻撃に対して困難であり, ノイズ除去のみでは強力な摂動を完全に無効化できないという課題がある. そこで本論文では, 計算コストが低い AE ベースのアプローチに着目する. 再構成誤差に依存せず, 潜在空間上の特徴距離に基づいて異常検知を行う二段階防御手法「DSVDD-AE」を新たに提案する. 本手法は, 第 1 段階として Deep Support Vector Data Description(DSVDD) を用い, 潜在空間における特徴距離によって異常検知する. 第 2 段階として, 検知を通過した入力に対して AE によるノイズ除去を行う. 本研究では, 敵対的画像を異常として検知できた場合, あるいはノイズ除去により正しく分類できた場合を防御成功と定義した. 提案方式の有効性を CIFAR-10 データセット, White-box PGD 攻撃に対して検証した結果, Defense-VAE と比較して防御性能が 28% 向上した.