omniture

FedCG:利用條件生成對抗網(wǎng)絡在聯(lián)邦學習中保護隱私并保持模型性能

2022-09-16 09:49 4871

深圳2022年9月15日 /美通社/ -- 聯(lián)邦學習(Federated Learning)旨在通過讓客戶端在不分享其私人數(shù)據(jù),保護數(shù)據(jù)隱私的前提下協(xié)作建立機器學習模型。最近的一些研究證明了在聯(lián)邦學習過程中交換的信息會受到基于梯度的隱私攻擊,因此,各種隱私保護方法已被采用來阻止此類攻擊,保護數(shù)據(jù)隱私。然而,這些防御性方法要么引入數(shù)級更多的計算和通信開銷(例如,同態(tài)加密),要么在預測準確性方面導致模型性能大幅下降(例如,使用差分隱私)。微眾銀行AI團隊和中山大學合作發(fā)表的論文《FedCG:利用條件生成對抗網(wǎng)絡在聯(lián)邦學習中保護隱私并保持模型性能》提出了"FedCG",將條件生成對抗網(wǎng)絡與分割學習相結(jié)合,實現(xiàn)對數(shù)據(jù)的有效隱私保護,同時保持有競爭力的模型性能。該論文已被國際人工智能頂級學術會議IJCAI 2022主會收錄。

論文信息

作者:Yuezhou Wu, Yan Kang, Jiahuan Luo, Yuanqin He, Lixin Fan, Rong Pan, Qiang Yang

標題:FedCG: Leverage Conditional GAN for Protecting Privacy and Maintaining Competitive Performance in Federated Learning

論文全文鏈接https://www.ijcai.org/proceedings/2022/324 


FedCG將每個客戶端的本地網(wǎng)絡分解為私有特征提取器(extractor)和公共分類器(classifier),并將特征提取器保留在本地以保護隱私。每個客戶端用一個生成器(generator)來擬合特征提取器的輸出表征。FedCG的創(chuàng)新之處在于它與服務器共享客戶端的生成器而不是提取器,以聚合客戶端的共享知識,提高模型性能 (如圖1)。

圖1:FedCG 架構(gòu)概覽
圖1:FedCG 架構(gòu)概覽

這種策略有兩個直接的優(yōu)勢:首先,與服務器可以得到完整的客戶端模型的聯(lián)邦學習方法(例如,F(xiàn)edAvg 和 FedProx)相比,F(xiàn)edCG沒有暴露直接與原始數(shù)據(jù)接觸的模型 (也即,extractor),因此客戶端數(shù)據(jù)泄露的可能性顯著降低。其次,服務器可以使用知識蒸餾(Hinton, Vinyals, and Dean 2015)聚合客戶端的生成器和分類器,而無需訪問任何公共數(shù)據(jù)。

一、FedCG訓練步驟

FedCG的訓練步驟分為兩階段客戶端更新(如圖2)和服務器端聚合(如圖3)。在兩階段客戶端更新中,首先利用從服務器下發(fā)的全局生成器來優(yōu)化分類網(wǎng)絡(包括特征提取器和分類器),然后再訓練一個本地生成器來擬合特征提取器的輸出表征G(z,y)≈F(x|y),用這個本地生成器來代替特征提取器, 在服務器端聚合所有客戶端的知識同時保護數(shù)據(jù)隱私。

圖2:FedCG 客戶端訓練示意圖
圖2:FedCG 客戶端訓練示意圖

在服務器端聚合中,通過知識蒸餾的方式聚合一個公共分類器 Cg 和一個公共生成器 Gg。然后,服務器下發(fā)公共分類器和公共生成器給每個客戶端。

圖3:FedCG服務器端訓練示意圖
圖3:FedCG服務器端訓練示意圖

二、FedCG實驗結(jié)果

如表1所示,總體來說,F(xiàn)edCG 在4個數(shù)據(jù)集 (共6個數(shù)據(jù)集) 上取得最高準確率. 在IID 場景 : 在 FMNIST 上達到最高準確率。在Non-IID 場景: 在 3 個數(shù)據(jù)集上都達到最優(yōu),特別是在 Office 數(shù)據(jù)集上,F(xiàn)edCG比第二高準確率的 FedProx 高出 4.35% 。

表1:FedCG與基線在Top-1精度上的比較
表1:FedCG與基線在Top-1精度上的比較

注:粗體字表示最好的性能。*表示沒有測量結(jié)果。括號內(nèi)的數(shù)字表示客戶端數(shù)量。

IID 場景: 所有的FL方法在所有的客戶端上都以較大的優(yōu)勢超過了本地模型。在FMNIST數(shù)據(jù)集上,F(xiàn)edCG在所有客戶端的表現(xiàn)都是最好的(見圖4(a))。FedCG的表現(xiàn)與那些共享所有本地模型的FL方法相差不大(見圖4(b))。Non-IID 場景: 在所有3個Non-IID數(shù)據(jù)集中,沒有一種FL方法能在每個客戶上都擊敗本地模型(見圖4(c),圖4(d)和圖4(e))。 FedCG在最多的客戶端上取得了最好的效果。同時也是擊敗local最多的算法。

圖4:不同數(shù)據(jù)集實驗結(jié)果對比
圖4:不同數(shù)據(jù)集實驗結(jié)果對比

注:在5個數(shù)據(jù)集上的實驗中,在每個客戶端上FEDAVG、FEDPROX、FEDDF、FEDSPLIT和FEDCG(紅色)與LOCAL相比,都取得了精度提高??v軸是準確性方面的性能差異(%)。正的(負的)收益意味著FL方法比LOCAL方法取得了比LOCAL模型更好(更差)。

如表2所示,隱私分析的實驗結(jié)果表明,使用FedAvg,隨著 DP 噪聲添加得越多,能更好的保護隱私,但會導致較大的準確率損失;使用FedSplit,能保護隱私, 但有較大的準確率損失;使用FedCG,能在保護隱私的條件下,取得一個較高的準確率。

表2: FedAVG,F(xiàn)edSPLIT和FedCG的模型性能與隱私保護效果對比
表2: FedAVG,F(xiàn)edSPLIT和FedCG的模型性能與隱私保護效果對比

三、總結(jié)

FedCG的目的是保護數(shù)據(jù)隱私,同時保持有競爭力的模型性能。FedCG將每個客戶的本地網(wǎng)絡分解為一個私有特征提取器和一個公共分類器,并將特征提取器保持在本地以保護隱私。它與服務器共享客戶端的生成器,以聚合共享知識,從而提高客戶端本地分類網(wǎng)絡的性能。實驗表明 FedCG具有高水平的隱私保護能力,并且可以實現(xiàn)有競爭力的模型性能。

消息來源:微眾銀行
China-PRNewsire-300-300.png
全球TMT
微信公眾號“全球TMT”發(fā)布全球互聯(lián)網(wǎng)、科技、媒體、通訊企業(yè)的經(jīng)營動態(tài)、財報信息、企業(yè)并購消息。掃描二維碼,立即訂閱!
collection