現代社会では,多くの分野で個人データの利用が進んでいる.一方,このようなデータ利活用によって, 個人のプライバシー漏洩のリスクも高まっている.そこで,プライバシー保護の指標として,差分プライ バシー(Differential Privacy, DP)が提案された.DPは,データ収集者がデータを公開する際のプライ バシー保護の指標である.しかし,データ収集者を信用する必要があったため,第3者への信用を必要と しないプライバシー保護の指標である局所差分プライバシー(LocalDifferential Privacy, LDP)が提案 された.LDPは,データ提供者がデータに直接ノイズを加えることによって,個人データからのプライバ シー漏洩の保護を想定している.LDPは,機械学習においてもデータプライバシー,モデルプライバシー の観点から有用である.しかし,LDPは多次元データに対してはプライバシー保護と有用性のバランスを 取ることが難しいことが課題である.これを解決するために,次元削減やデータの離散化といった技術が提 案されている.LDPを満たす機械学習手法として,SUPMというフレームワークが提案された.SUPMで は,カテゴリ,数値という全属性タイプをドメインサイズLの順序付き離散集合に変換することで,統一的 な弱匿名化を実施し,統一的に摂動を加える.このとき,各属性のドメインとドメインサイズLを,デー タの特徴に依らず事前に統一的に決定する.このため,事前に各属性の有用性などの特長を知っている必 要性がある.そこで,本研究では,次元削減の際に収集するデータを用いて属性毎に最適なドメイン定義, ドメインサイズを達成するようなデータ成形手法を提案する.そして,ADULTデータセットを用いて提案 手法の有用性を検証した.

Top