近年,データ駆動型の意思決定が様々な分野で活発化しており,その手法の一つである機械学習は盛んに研究されている分野である.個人データを機械学習に活用することで,有益な情報が得られるが,その一方で,病歴や年収などの情報が含まれればプライバシーの漏出につながる.そこで,差分プライバシー(Differential Privacy, DP) を利用すると,プライバシー保護度合いを管理しながらデータの活用が可能になる.しかし,差分プライバシーは信頼できる第三者を必要とするため実用的ではなく,データ収集者も信頼しない局所差分プライバシー (Local Differential Privacy ,LDP) が提案された.局所差分プライバシーを満たす機械学習には SUPM というフレームワークがあり,弱匿名化によってデータ型に寄らない統一的な処理を可能にした.しかし,既存研究で提案された弱匿名化では,カテゴリデータの特性を考慮せずランダムにカテゴリを統合している.また,使用したデータセットにはカテゴリデータが含まれておらず,十分に検証がなされていない.そこで,本論文では,名義尺度のカテゴリデータのデータセットを対象とし,データの特性を活かした弱匿名化手法を提案する.

Top