文章目录
- 论文信息
- 摘要
- 主要贡献
- vertically federated GNN (VFGNN)
- 执行过程
- 1. 生成初始节点嵌入
- 2. 生成局部节点嵌入
- 3. 生成全局节点嵌入
- 4. 采用DP增强隐私
论文信息
原文地址:https://www.ijcai.org/proceedings/2022/0272.pdf
摘要
Graph Neural Network (GNN) has achieved remarkable progresses in various real-world tasks on graph data, consisting of node features and the adjacent information between different nodes. High-performance GNN models always depend on both rich features and complete edge information in graph. However, such information could possibly be isolated by different data holders in practice, which is the so-called data isolation problem. To solve this problem, in this paper, we propose VFGNN, a federated GNN learning paradigm for privacy-preserving node classification task under data vertically partitioned setting, which can be generalized to existing GNN models. Specifically, we split the computation graph into two parts. We leave the private data (i.e., features, edges, and labels) related computations on data holders, and delegate the rest of computations to a semi-honest server. We also propose to apply differential privacy to prevent potential information leakage from the server. We conduct experiments on three benchmarks and the results demonstrate the effectiveness of VFGNN.
图神经网络( GNN )在图数据的各种实际任务中取得了显著的进展。高性能的GNN模型总是依赖于图中丰富的特征和完整的边信息。然而,在实践中,这些信息可能被不同的数据持有者所隔离,这就是所谓的数据隔离问题。为了解决这个问题,本文提出了垂直联合图神经网络( VFGNN ),这是一种在数据垂直分区的情况下用于隐私保护节点分类任务的联合GNN学习范式,可以推广到现有的GNN模型中。具体来说,我们将计算图形拆分为两部分。我们将私有数据(即特征、边缘和标签)相关的计算留给数据持有者,并将剩余的计算委托给半诚实的服务器。我们还提出应用差分隐私来防止来自服务器的潜在信息泄露。我们在三个基准测试集上进行了实验,结果证明了VFGNN的有效性。
主要贡献
- 提出了一种新的学习范式(VFGNN),它不仅可以推广到大多数现有的GNN,而且具有良好的精度和效率;
- 为服务器提出了不同的组合策略来组合来自数据持有者的本地节点嵌入;
- 在三个真实数据集上评估了该方案,结果表明了VFGNN的有效性。
vertically federated GNN (VFGNN)
- 出于隐私考虑,将私有数据(节点特征、标签和边)相关的计算保留给数据持有者;
- 出于效率考虑,我们将非私有数据相关的计算委托给半诚实的服务器。
将计算图划分为以下三个子计算图:
子图1:私有特征和边相关计算
利用节点的私有特征,如社交网络中的用户特征,生成初始节点嵌入。在垂直数据拆分设置中,每个数据持有者都具有局部节点特性。然后,数据持有者通过使用不同的聚集器函数聚集多跳邻居的信息来生成局部节点嵌入。
子图2:非私有数据相关的计算
将非私有数据相关的计算委托给一个半诚实的服务器以提高效率。首先,服务器将来自数据持有者的本地节点嵌入与不同的联合策略相结合,得到全局节点嵌入。接下来,服务器可以使用明文数据执行连续的计算。将这些明文计算委托给服务器不仅可以提高我们的模型精度,而且可以显著提高我们的模型效率。
在此之后,服务器得到一个最终的隐藏层并将其发送回具有标签的数据持有者来计算预测。
子图3:私有标签相关的计算
拥有标签的数据持有者使用从服务器接收到的最终隐藏层计算预测。
执行过程
- 数据持有者首先应用MPC(安全多方计算)技术利用私有节点特征信息协同计算GNN的初始层,以此作为特征抽取模块,然后单独使用私有边缘信息进行邻域聚合,最终得到局部节点嵌入。
- 为半诚实服务器提出了不同的组合策略来组合来自数据持有者的局部节点嵌入,并生成全局节点嵌入,基于此服务器可以进行连续的非私有数据相关计算。
- 服务器将最终的隐藏层返回给有标签的一方,该方将计算预测和损失。数据持有者和服务器执行正向和反向传播以完成模型训练和预测,在此期间,私有数据(即特征、边缘和标签)始终由数据持有者自己保存。
- 采用差分隐私,在服务器和数据持有者(例如,本地节点嵌入和渐变更新)之间交换信息,以进一步保护潜在的信息泄漏从服务器。
1. 生成初始节点嵌入
通过使用节点特性生成初始节点嵌入。在垂直划分的数据设置下,每个数据持有者具有部分节点特征。有两种方法供数据持有者生成初始节点嵌入,即单独和协作,如下图所示:
2. 生成局部节点嵌入
基于初始节点嵌入,通过在图上使用多跳邻域聚合来生成局部节点嵌入。需要注意的是,邻域聚合应该由数据持有者单独进行,而不是合作进行,以保护私有边缘信息。
3. 生成全局节点嵌入
服务器组合来自数据持有者的本地节点嵌入并获取全局节点嵌入。组合策略( COMBINE )应具有可训练性,并保持较高的表征能力,设计了3种组合策略:
- Concat
- Mean
- Regression
4. 采用DP增强隐私
数据持有者直接向服务器发送本地信息,例如前向传播过程中的本地节点嵌入和反向传播过程中的梯度更新,可能会导致潜在的信息泄漏,应用差分隐私来进一步增强隐私。
介绍了两种基于DP的数据发布机制,以进一步增强我们提出的VFGNN的隐私性。这样,当数据持有者的本地信息中存在单个条目修改时,服务器大概率无法区分修改前后的差异。提出了两种机制,即Gaussian Mechanism 和 James-Stein Estimator。