论文标题:De-anonymization of Mobility Trajectories: Dissecting the Gaps between Theory and Practice
论文地址:点击前往
本文探讨了移动轨迹去匿名化理论方法在实际数据集应用中的差距,并提出了四种能很好的解决实际数据集各种问题的算法。
Indroduction
通常来说,移动轨迹的匿名化数据集由ISP厂商提供,然而去匿名化算法可能将用户隐私暴露出来,因此研究如何去匿名化以及新的匿名化方法是很重要的。早起的研究使用的数据是生成数据,其形式单一且不能和实际贴切,所以本文建立了一个新的数据集,其数据由真实的网络数据而来,并且体量巨大。
同时作者在真实数据集上使用7种经典的去匿名化算法进行攻击,发现这些算法在真实数据上并不work,其主要原因是1. ISP轨迹中有明显的时空不匹配2. GPS轨迹可能会有偏差,这些原因导致去匿名化工作富有挑战性。
所以,作者提出了四种新算法, 空间匹配算法(SM),时间匹配算法(TM),基于高斯过程和马尔可夫的算法(GM)及其改进版本(GM-B)。这些算法对比以前算法,表现提高超过17%。
文章亮点:
- 数据集 2. 新算法 3. 首次尝试将理论和实践结合(大雾)
Related Work
本节总结了以前去匿名化的七种算法并进行对比,并对以往的假数据和现在的真数据进行分析。
其中,去匿名化的种类有:位置轨迹信息去匿名化和网络行为信息去匿名化。
位置信息去匿名化:
算法有(对应下表)时间不匹配算法[28],空间不匹配算法[23],及其其他算法 [27],[32],[33] 。基于’encountering’事件的算法[8],[31], 但没有算法同时考虑时间和空间的不匹配。
网络行为信息去匿名化:
基于network dataset,其算法有[35],[20]等,这些算法需要用户的社交网络图作为额外信息。基于profile dataset,算法有[15],[16],[26]等。
Threat Model
本节着重讲解去匿名化算法攻击手段的及符号定义
对于攻击者拥有的信息。我们使用长度为T的vector去代替。代表时间$t$ (time shot),用户$u$的位置信息。其中$S(t)=\emptyset$表示此时刻没有用户信息。并且用$\mathcal{S}=\left\{\boldsymbol{S}_{u} | u \in \boldsymbol{U}\right\}$代表所有用户信息。
攻击方法:
我们用score function $D$ 去量化攻击效果。对于用户u,攻击者需要从其掌握信息中寻找出该用户信息,因此$\boldsymbol{L}_{\sigma}(u)$越高越好。
具体来说,我们用$R(u,D)$来表示$\boldsymbol{L}_{\sigma}(u)$的排名,其中用$h$ 表示排名的指标。所以攻击方法的性能度量可以表示为:
目标函数为:
具体来说,函数可以用一个广泛使用的评估函数top-k来表示:
经典算法表现
首先介绍数据集(省略的一节,论文中有数据的详细处理)
我们用$T_p$表示一个用户的一条由随机的时空-位置点组成的轨迹,我们将匹配的轨迹定义为用户的匿名设置,用$A(T_p)$表示,用$|A(T_p)|$来表征用户的唯一性。如果$|A(T_p)|=1$说明匿名数据其只有一条轨迹。我们对数据集进行分析,即可得出理论分析的privacy bound
现在我们对这七种算法进行分别介绍:
HMM
其中Z是隐含变量,表示用户真实位置。
HIST
使用$\Gamma{u}$来表示用户u的直方图统计,定义为$$\Gamma{u}=\frac{1}{|\mathcal{T}|} \sum{t \in \mathcal{T}} I\left(S{u}(t)=r\right)$$ 。
其相似函数定义为:
WYCI
ME
POIS
NFLX
MSQ
试验结果为:
原因分析:
时空不匹配
原因:GPS信号弱及其更新机制
数据稀疏
Our Method
高斯混合模型(GMM)模型可以有效解决时空不匹配问题,但对于数据稀疏问题,作者提出了两种方案:第一种是基于markov的移动模型,可以建立空缺时间点的分布,第二种是使用整个数据集对用户位置和行为信息进行聚合,以此推断丢失信息。
上图表示了隐含变量的关系,作者基于此假设建立得分函数:
下面对模型进行讲解:
GMM
GMM是有限高斯密度的线性叠加,可以表示为:
在模型中,可以表示具有p个时间单位的时间不匹配的外部记录概率密度,因此对记录$S(t)$概率密度函数可表示为:
其中$\pi(p)$是p时刻时间不匹配的概率,而$\sigma(p)$是以p时间单位的时间不匹配为条件的空间不匹配的均方根。
我们使用EM算法去计算π和$\sigma$的值。第E步计算:
第M步计算:
其中,$z{nk}$是表明被$L{nk}$生成的$S_n$的潜在变量(corresponding temporal mismatch is k time units)
Marcov Model
为了计算S(t)的PDF(概率密度函数),建立模型:
并分别建立了0阶和1阶的模型:
0-Order Markov Model
条件假设:每个时间点的位置信息相互独立
用E(r)表示用户的边缘分布(margin distribution ),可写为:
其中
与位置r的记录数成比例,以α0为参数,调整位置上下文的影响
因此我们有:
1-Order Markov Model
条件假设:每个时间点的位置信息仅与上个时间点位置有关
因此我们可以构建转移矩阵:
其中:
Spatial Matching Algorithm (SM)
可表示为:
Temporal Matching Algorithm (TM)
可表示为:
效果
局限性:
攻击者持有非ISP数据,所有模型展示的效果均为上限效果