柳下 智史
機械学習は医療,金融,教育など多様な分野で重要な役割を果たしている.一方で,学習に用いられる データには個人情報が含まれる場合が多く,信頼できない解析者の下で収集,解析する枠組みでは,プラ イバシー侵害のリスクが指摘されている.この課題に対し,データ収集前に各データ所有者が手元で摂動 を行う局所差分プライバシー(LDP)が注目されている.LDP環境下で機械学習を実現する枠組みとして, SUPMが提案されている.SUPMは次元削減フェーズ,PPTraining,PPTestingから構成され,高次元デー タに対してもLDPを満たした分類を可能とする.しかし,PPTrainingでは摂動後の観測値を確定値として 入力し学習するため,摂動に起因する不確実性が反映されにくく,学習が不安定となり精度が低下する.ま た,次元削減フェーズで収集したデータから推定可能な統計量が,学習に十分活用されていない.本研究 では,SUPMの次元削減フェーズで推定した分布とメカニズムの既知の摂動確率に基づき,観測値に対す る事後分布を計算することで,不確実性を反映したデータ変換手法を提案する.具体的には,カテゴリ属 性のone-hot表現を確率ベクトルに置き換えるsoftOHE,ターゲットエンコーディングを期待値で補正する softTE,ならびに観測ラベルと観測特徴量から真のラベル分布を推定するsoftLabelを導入する.提案手法 の有効性を検証するため,AdultおよびBRデータセットを用い,SUPMと同様に,推論時における収集 者の信頼性に応じて,TTS(Trusted Test Server)とUTS(Untrusted Test Server)の二つの環境で評価 した.その結果,TTSではSUPMに対してMacroF1が最大25.8%改善し,UTSでも最大4.7%改善した. さらに,事後分布に基づく補正により特徴量の復元誤差が平均で最大56.4%低減し,不確実性を考慮した データ変換が真値に近い表現を与えることを確認した.
