山月 達太
現在,個人のデータを収集し活用することで社会の様々な問題が解決されると考えられている.しかしながら個人のデータを収集するためにはプライバシー保護が不可欠である.代表的なプライバシー保護の指標としてはk-匿名化やl-多様性が存在する.しかしこれらは任意の攻撃者に対して数学的にプライバシーレベルを評価できない.数学的に保障されたプライバシー保護指標としては差分プライバシーが存在する.差分プライバシーはノイズによるデータベースに含まれている個人のデータ推測の保護のレベルを数学的に評価する.さらにデータ活用者だけでなく収集者にたいしても数学的にプライバシー保護が保証できる指標として局所差分プライバシーが注目を集めている.局所差分プライバシーはデータ提供者がデータ収集者に対してデータを送信する際にランダムなノイズを加えることでデータを保護する手法である.そして局所差分プライバシーを機械学習に適用する試みが行われている.しかし局所差分プライバシーは多次元データに対しては有用性とプライバシー保護の制御が難しい課題がある.そのため機械学習に適用するためには次元削減やデータの離散化などを組み合わせノイズを抑制する必要がある.本研究では機械学習に局所差分プライバシーを適用するにあたりデータの加工をデータの分布に応じて行うことでより高い精度の学習を可能にした.また機械学習データセットの属性に応じてノイズを加える強度を調整することで厳しいプライバシーの下でも学習を行うことを可能とした.