芦田仁｜宮地研究室

近年, 機械学習技術は画像認識や自然言語処理など多岐にわたる分野で社会実装が進んでいる. 一方で, 学習済みモデルから学習に用いられたプライバシーに関わるデータが漏洩リスクが課題である.機械学習モデルに対するメンバーシップ推論攻撃 (Membership Inference Attack: MIA) は, 攻撃者が機械学習の応答を利用して, あるデータが訓練データかどうか推測する攻撃であり, 2017年に Shokri らによって定式化された. 2022年には Carlini らが提案した複数のシャドウモデルを用いた尤度比攻撃 (Likelihood Ratio Attack : LiRA) は, 低い偽陽性率において極めて高い攻撃成功率を示し, 従来とは異なる低い偽陽性率領域での攻撃性能を新たな評価軸として提案した. また, 学習プロセスに差分プライバシーを用いる DP-SGD が MIA に対して安全であることを明示した. 近年, データを LDP で保護する機械学習モデルが研究されているが, そのMIA に対する安全性は不明である. 特に, データにはラベルや特徴量があり, それぞれをどのように保護すべきかという点や, それらに対する攻撃モデルの定義については検討されていない. 本研究では, LDP を用いた機械学習モデルに関して, 匿名化手法を fully-private data, label-only-private data, data-only-private data として定式化し, さらに, それらに対する MIA 攻撃モデルとして, プライバシブラックモデル, 準プライバシブラックモデル, プライバシホワイトモデルの 3 段階を定式化した.そして, label-only-private 及び data-only-private の枠組みに対して, 準プライバシブラックモデルを仮定し, LiRA を用いた攻撃耐性の評価を行った.