藤本 聖
深層学習の発展は我々の社会に多くの恩恵をもたらしている.一方で,モデルの学習には膨大なデータと計算資源を必要とするため,第三者が学習過程に関与する状況が生じることがある.バックドア攻撃とは,攻撃者が訓練データセットに攻撃データを混入させることで,テスト時に意図した出力を引き起こす攻撃である.機械学習モデルは学習データの品質に大きく依存することから,バックドア攻撃に対する防御手法の確立が求められている.代表的なアプローチとして,活性化値を分析し,訓練データ中に潜む攻撃データを除去する手法がある.その代表例として Activation Clustering (AC) および Spectral Signatures (SS)が挙げられる.しかし AC では K-means 法を用いるため,正常データと攻撃データの活性化値のクラスタが球状かつ線形分離可能であることが暗に仮定されている.一方,SS は攻撃除去において全てのラベルから一定割合のデータを除去するため,攻撃が限られたラベルにのみ存在する場合には,正常データまで除去してしまう.本研究では,バックドア攻撃が含まれた際の活性化値を主成分分析によって二次元へ射影した際に現われる V 字構造に着目し,極座標表現を導入することで新たな防御手法を提案する.また,この V 字構造が生じる要因についても,既存研究の議論を踏まえて考察する.実験では Fashion-MNIST および CIFAR-10 を用い,観測される分布の性質を利用した提案手法が,既存手法よりも正常データと攻撃データを分離できることを確認した.
