柳下 智史

機械学習は医療，金融，教育など多様な分野で重要な役割を果たしている．一方で，学習に用いられるデータには個人情報が含まれる場合が多く，信頼できない解析者の下で収集，解析する枠組みでは，プライバシー侵害のリスクが指摘されている．この課題に対し，データ収集前に各データ所有者が手元で摂動を行う局所差分プライバシー（LDP）が注目されている．LDP環境下で機械学習を実現する枠組みとして， SUPMが提案されている．SUPMは次元削減フェーズ，PPTraining，PPTestingから構成され，高次元データに対してもLDPを満たした分類を可能とする．しかし，PPTrainingでは摂動後の観測値を確定値として入力し学習するため，摂動に起因する不確実性が反映されにくく，学習が不安定となり精度が低下する．また，次元削減フェーズで収集したデータから推定可能な統計量が，学習に十分活用されていない．本研究では，SUPMの次元削減フェーズで推定した分布とメカニズムの既知の摂動確率に基づき，観測値に対する事後分布を計算することで，不確実性を反映したデータ変換手法を提案する．具体的には，カテゴリ属性のone-hot表現を確率ベクトルに置き換えるsoftOHE，ターゲットエンコーディングを期待値で補正する softTE，ならびに観測ラベルと観測特徴量から真のラベル分布を推定するsoftLabelを導入する．提案手法の有効性を検証するため，AdultおよびBRデータセットを用い，SUPMと同様に，推論時における収集者の信頼性に応じて，TTS（Trusted Test Server）とUTS（Untrusted Test Server）の二つの環境で評価した．その結果，TTSではSUPMに対してMacroF1が最大25.8%改善し，UTSでも最大4.7%改善した．さらに，事後分布に基づく補正により特徴量の復元誤差が平均で最大56.4%低減し，不確実性を考慮したデータ変換が真値に近い表現を与えることを確認した．