川原 尚己
近年,大量の個人データがビッグデータとして収集され,様々な用途のためにその解析結果が利用され ている.数多く存在するデータの活用の方法の一つとして,データセット中に存在するアイテムセットに 対し,その出現頻度が大きいものと対応する頻度を求めるというものがある.ただし,このようなデータ には個人のプライバシーが含まれていることが多いため,データを収集・活用する上で必要となるのがプ ライバシー保護である.その手段の一つとして「差分プライバシー」が挙げられる.これは,収集・解析 したデータにノイズを加えることで個人のプライバシーを保護しようとする技術である.一般に,差分プ ライバシーメカニズムはプライバシー保護とデータの有用性はトレードオフの関係がある.先ほどの頻度 の推定という活用手法に対応する差分プライバシーメカニズムも提案されているが,これも高いプライバ シー保護強度を求める場合には有用性に関して問題を抱えている.一方で,出力する統計量ではなく,デー タ自身にノイズを加えるとともに,匿名化前のデータ分布を匿名化後も保持するというような操作を行う ことでプライバシー保護強度が高くとも有用性を保つことを可能とし,様々な解析に適用できうるという ような特徴を持つ DIP 法という差分プライバシーメカニズムが提案されている.本研究では DIP 法に着目 し,プライバシーを保護しつつ,頻度推定の有用性を劣化させない手法について提案する.