久久久久久久久波多野高潮,国产人妻久久久久久精品动漫,精品一区二区三区在线成人

近期，微眾銀行首席人工智能官、香港科技大學講席教授楊強做客雷鋒網AI金融評論公開課，以“聯邦學習前沿的研究與應用”為題，全面詳盡地講解了聯邦學習如何直面數據孤島和隱私保護的雙重挑戰。

本文編譯：卡卡。以下為楊強演講全文內容與精選問答：

今天的題目是和金融相關的，先給大家講一下，為什么在金融行業有特別的需求來保護用戶隱私。我希望大家記住一句話：數據不動，模型動。

AI發展困境：小數據與隱私保護

在金融行業，現在大部分的應用都是數據驅動的，卻面臨非常嚴峻的挑戰。

首先人工智能的力量來自于大數據，但在實際運用過程中碰到更多的都是小數據。比方說法律案例，有人做過統計，案例最多也就收集到上萬個。又比如金融反洗錢，因為反洗錢案例是少數的現象，所以每一個案例都非常重要。對于醫療圖像，非常好的標注的醫療圖像也非常少。所以我們可以發現：周邊更多的是小數據，但AI恰恰需要使用大數據。

幾個例子：首先是在金融領域，比如信貸風控、市場營銷，都需要大量的數據訓練。大額貸款風控的案例又非常少。要是來做深度學習模型，只用少量這種大額貸款的樣本是遠遠不夠的。

另外一個例子是智慧城市。智慧城市有很多的攝像頭，每一個攝像頭可以獲取的數據其實是有限的，希望聚合不同攝像頭的一些數據。但如果它們來自不同的公司，或涉及用戶隱私，就無法簡單粗暴合并。

大家都知道人工智能的一個未來（應用方向）是無人車，但是每一輛無人車所面臨的新的數據卻是有限的。如果要更新我們的模型，就需要大量新的數據，它來自于不同的無人車，每個車輛的數據里面肯定是有隱私，同時也是小數據。

又比如網購，像物流系統、供應鏈系統，有很多的倉儲，如果要自動化，就有很多的監控的需求，這種數據往往是小數據，也是分散型的數據，把它聚合起來也不是那么容易。

比如拿手機看新聞，有很多推薦系統，每個手機上面所獲取的用戶喜好信息，也是小數據，聚合它也面臨到用戶隱私的問題。

問題是：周邊都是小數據，是不是可以把它聚合起來，聚少成多？當然這個是我們最直接的想法，人工智能一開始的發展也是這么來做的，但是現在面臨了嚴峻的挑戰。

社會層面，對于隱私和安全的意識越來越強，政府的監管，相關法律法規越來越嚴。

歐洲首先推出來的法規叫GDPR。它有各種條款，最重要的一條是要保護隱私的數據，保證隱私權是掌握在用戶手中。自從它2018年推出來以后，已經有不少的大公司被罰款，比如Facebook和Google。

在美國進展稍微慢一點，但現在加州的法律也跟上來了，叫CCPA。國內也是法律嚴格化、全面化，各行各業的法律法規都面世了。

聯邦學習沖破孤島，完成數據“拼圖”

我們在訓練模型過程中希望有海量的大數據，現實卻是一個個數據的孤島。想把數據孤島連起來，形成一個大數據，卻遇到了法律法規的嚴格限制。

我們面臨的兩個技術問題，也是我個人研究感興趣的問題：第一個是如何用遷移學習來解決小數據，這個不在今天的講座里。今天重點放在右邊這個圖：數據都是碎的，如果想把碎的數據拼起來，有什么辦法？下面就要講一下我們的解決方案，聯邦學習（Federated Learning）。

Federated Learning，說白了想達到這樣一種狀態：有多個數據源，有多個數據孤島，每一個數據源的數據都不動，都在本地。但是讓這一些具有數據源的擁有方（Owner）能夠達成一個協議，使得大家可以聯合起來建立一個模型，就是聯邦模型。可以有各種各樣建立合作模型的方式和算法，但是總目的一樣：就是改變以往的做法，讓數據在本地不動，通過交換一些模型的信息，讓模型成長起來。

這樣做需要一些數學工具和計算工具，前者最突出的就是有關隱私保護、加密建模的工具；后者最突出的就是分布式的機器學習。

可能有些同學是第一次聽到聯邦學習這個名詞，我用一個簡單的例子來給大家進行解釋。

假設用一只羊來類比機器學習模型，我們希望羊吃了草以后能夠長大。
過去的做法是，把草買到一起來建立模型。比方說左邊的模型，左邊的箭頭是指向羊的。羊不動，但是草被購買到中心。相當于用簡單粗暴的辦法來獲取數據，形成大數據，來建立模型。
但我們希望能夠保護各自的隱私，所以讓草不動，讓羊動。也就是說，我們帶著模型到不同的草場去訪問，那么久而久之羊就長大了——這個就是聯邦學習的新思路，就是讓草不出草場，本地主人無法知道羊吃了哪些草，但是羊還是長大了。

橫向聯邦學習：樣本不同特征同

怎么落地？第一個做法，假設每一個數據擁有方具有不同的樣本，但是縱向特征卻基本一致。這就相當于我們有那么大的一個大數據的數據集，從橫向進行切割，形成了一堆一堆的樣本，他們的特征卻是類似的。

比如每一個手機都是我們個人在使用，形成了一堆樣本。有不同的手機，每個手機基本上取的這些特征都一樣，但樣本卻不同。我們希望在數據不動的情況下，能夠聚合這些手機上的數據的這些能力，建立大數據模型。

就像這個圖左邊所示的數據集們，依次對應右邊各終端上面的數據。它們的特征是縱向的，X1、X2、X3是類似的，但樣本U1、U2…U10卻是不同的。所以這個叫橫向切割，按樣本切割，簡稱橫向聯邦學習。

橫向聯邦學習，用數學的形式表示它是一個矩陣。一個數據集是左上角，一個數據集是右下角，它們有很大的在特征方面的重疊，但是他們的樣本用戶卻不重疊，可能他們有各自的標簽。

左邊和右邊有各自的標簽，但是我們希望利用所有的數據來建模，而不是僅僅靠一個終端上面的數據來建一個小模型，希望把他們聚集起來建立大模型，但是他們的這些數據不能動。

這時候就需要用到橫向聯盟學習的模型。簡單來說，每個終端都和服務器有一個連接，要保證我們跟服務器的溝通，不是數據的溝通，而僅僅是模型參數的溝通。在這里參數是w1、w2直到wk，這些參數在旁邊有兩個直角括號（[ ]），在數學上代表加密，所以在這里用到的是一個加密的數學模型。

這些參數加密以后，把加密的包送給服務器，服務器不懂加密包里面到底有什么，只知道這個是有關參數的加密包?，F在有一種技術可以把這種加密包在服務器端進行合起來，合起來的結果會形成一個新的模型，就是上面所示的神經網絡模型。這就是第一步到第六步的流程。

在數學上，這樣的結合實際上是一種模型的疊加，兩個不同的數據集，它建立的兩個不同分類模型，一個是線性模型，另外一個可能是KNN模型，這兩個模型合起來就會形成一個高維空間的模型。

我們希望在這個建模過程中，每一個數據集都不向服務器端泄露它本身的數據，只是它們的參數在進行溝通。而且參數的溝通也是加密的，這就保證了隱私。

同態加密

細節來說，現在有一種特別好的加密方法，在兩個加密包進行聚合的時候，可以不看每一個加密包里面的數據，但我們就把它的包裝和他的內核進行調換，這樣a的加密加上b的加密，就等于a加b的加密。

打個比方，兩個包裝好的東西合起來，包裝就到外面來了，里面是兩個東西的和。這個技術叫做同態加密，在座的同學如果有興趣，網上現在有大量的資源。國內也有很多專家是在同態加密方面特別有成就。同態加密在過去做不好的一個原因是計算量太大，現在已經發現有很好的解決算法，再加上硬件各方面都有進步，所以同態加密已經不是問題了。

同態加密的效果激發了很多機器學習人的想象力。比如Sigmod曲線，它是非線性，可以用一個線性來近似，近似以后就可以去計算損失函數以及加密結果。同態加密分配律（distribution law）就使得它的總的加密變成每一項的加密之和。

谷歌首先看到了優勢，就提出了一個叫Federated Averaging，是一個橫向聯邦學習的做法。

我們可以想象成一個聯邦平均，就是有n個模型，現在要求它們的平均值，但這個事要在服務器端做的時候，我們不希望服務器能夠看到每一項它所包含的內容，所以假設手機每一天獲取了新的數據以后，我們要更新在手機上面的一些機器學習模型。比方說 next word prediction和人臉識別。我們就可以選擇一些手機，用這個辦法對它的新數據進行聯邦求和，最后就在保護用戶隱私的前提下，能夠不斷更新手機上的數據。

這個已經在Google、在安卓系統得到了應用，現在有眾多的手機商，包括我們國內的手機商都非常感興趣。其他的廠商比如物聯網、智能家居的這些公司，如果還沒有聽說聯邦學習的話，他們就會落伍了。

縱向聯邦學習：樣本重疊特征異

剛才講的是橫向聯邦，是按用戶來分割，按樣本來分割。那有沒有這種情況：樣本幾乎都一樣，在不同的數據擁有方，但特征不一樣。比如不同機構、公司之間，面臨的用戶幾乎都是一樣的，但是他們的特征不一樣。

舉例來說，視頻網站有很多用戶的視頻喜好，賣書的網店幾乎也有同樣的用戶集，但它們的特征卻不一樣，這邊是有關書的，那邊是有關視頻的。又比如兩個銀行，一個銀行可能有很多貸款，另外一個銀行可能有很多理財，他們的用戶群可能也是有很大的重疊。

過去的做法是把數據買過來，然后在一個服務器上加以聚合，現在這個事兒行不通了。我們就思考聯邦學習能不能來做這個事兒。

這種聯邦是特征不同，但是樣本重疊，按照特征豎著來切，所以叫縱向聯邦。如圖所示，兩個機構之間的溝通也是加密的模型參數，而不是數據本身。給到任意兩個數據A和B，不一定所有的是樣本都重疊。但是如果我們有辦法找到足夠多的重疊的那一部分，就可以在這一部分上進行建模，用聯邦學習來建模。

下面就分成兩個問題：

在不泄露用戶本身數據隱私的情況下，不告訴用戶和特征值前提下，兩個數據擁有方能夠共同找到他們所共同擁有的樣本。
在找到這些樣本以后，利用這些樣本作為訓練數據來共同建模。再之后就是如何使用。

如何建模：

縱向聯邦的大概思路是，這個模型是A方有一部分的模型，B方有另外一部分的模型。就像戰國時代的虎符，一個印被切成兩塊，只有當這個印是能夠完全重疊的時候，才能證明這個將軍是得到了真正的國王的命令——左邊有模型A，右邊有模型B，這兩個合起來才能形成聯盟來進行共同的推理。

再看細節：首先是有一個墻，這個墻表示數據不能通過墻來交換。左邊有機構A，右邊有機構B，這兩個機構在溝通的時候要非常的小心，只能溝通一些加密后的模型參數。

這個算法用4個步驟在右邊這里展開，下面我就先一步一步的來給大家進行講解。

第一步：如圖所示，假設左邊這個機構有這么一個用戶或者樣本的一個集合X，右邊也有一個樣本的集合Y，在不暴露X和Y的前提下能夠找到他們的交集。

第二步：算各自的模型，記住機構A要做一部分的模型，機構B要做另外一部分的模型。首先在機構A先做第一步，把初始參數和每一個樣本做一下點積，把這個點積的結果加密，然后把它通過加密算法送給B。

第三步：B得到了這個包，不知道里面有什么，但它可以通過同態加密去更新對樣本的計算結果，得到結果以后和真值去比對，就會得到一個損失值，它會把 loss再加密反饋給A。

往往在這個情況下，如果有一個組織者（Coordinator），它會使程序簡化，所以 B也可以把這個結果直接給Coordinator。

第四步：Coordinator得到了這個結果以后，再加密這個結果，再加一些噪音，再分發給A和B，讓它們各自去更新自己的模型參數，這就使得每一個參與方都不知道對方的數據和特征，同時它可以更新自己的參數。這個流程多次后，A和B的模型就逐漸形成了。

如果有一個新用戶過來，就可以通過Party A和Party B各自的參與，通過一個類似的流程來完成——這就是在縱向聯邦的前提下，特征不重疊、樣本重疊，互相不知道對方樣本的前提下，也能夠建模。

總結：所謂橫向聯邦學習，按橫向來切割數據，更多的使用場景在于很多個終端和一個服務器的聯邦學習?？v向聯邦學習，按特征來切割數據。使用時，大家基本是在同一個位置或者Level，兩家公司之間的。

所以說左邊橫向聯邦比較適用于toC，右邊縱向聯邦對toB比較適用。

特別要說的是，在18年初的時候，我們在微眾銀行發現，用戶隱私的保護是讓眾多數據擁有方合作時的一個挑戰，如何在不同的銀行和機構之間聯合建模，同時保護數據隱私？我們就發展出了toB的聯邦學習。

谷歌的相關研究團隊在一直是在安卓系統團隊下面，所以他們比較關心橫向聯邦學習?，F在美國和歐洲是橫向比較多，在我們國內是縱向比較多。聯邦學習現在是雙頭發展。

第三方能去掉嗎？

因為第三方有可能泄露用戶隱私，是可以（去掉）的，只不過要多加一些步驟，整體步驟變得比較冗長，但是可以做到，這里不再展開。

聯邦學習和區塊鏈像嗎？

聯邦學習和區塊鏈其實不一樣，最重要的區別在于：聯邦學習是利用數據的價值，它的一個特點是數據不能夠被復制放到別的節點上。區塊鏈是要保證信息的透明和不能篡改性，所以要把數據復制到不同的節點上。雖然最終的目的都是在多方形成共識、形成聯合，但是他們確實有所不同。

從數學的角度，從計算機的角度來講，引入一個多方機制時，要問以下三個問題：

第一問，一致性?，F在有多方，那么我按照不同的次序來做事情，我得到的結果是不是一樣？我們希望是一樣的。對于數據庫來說，查詢結果一定要一樣。聯邦學習也是一樣的。

第二問，原子性。當有一方掛了，大家是不是可以退到原來的狀態。

第三問，虎符性，就是安全性。這對聯邦學習是尤其重要的一個特性。但是區塊鏈和這種多方計算、安全計算，以及我們所說的模型計算和數據的這種合作卻無關。

遷移學習：樣本、特征無一重疊

剛才講到要么樣本有重疊，要么特征有重疊，但是如果兩者都沒有重疊，這個時候就要請出遷移學習。

遷移學習的思路是，假設兩個數據集的樣本和特征幾乎都沒有交集，我可以在他們的子空間里面找到有重疊的地方。怎么找？這就是通過同態加密和剛才所說的分布式交互機制。找到以后，就可以在子空間里面進行橫向聯邦或者縱向聯邦了。

多方參與下如何識別惡意中心和節點

壞人是怎么混進來的？比方說做OCR（手寫識別），我們讓計算機識別0。如果不做加密，我們沒有一個機制，這種所謂的對抗是可以做到的，壞人是可以通過參數或者一系列梯度的泄露可以反猜原始數據。

因此數學家們就琢磨各種辦法，來對壞人分類。

其中誠實（Honest）就是好人；半誠實（Honest-but-curious）就是好奇，但本身不壞。還有人是惡意的，想搞破壞，想得到用戶隱私，然后獲利。

對于不同的假設，可以設計不同的聯邦學習算法和多方計算算法，還可以做零知識（Zero knowledge）和一些知識（Some knowledge）分類。服務器端也可以區分是不是惡意中心、惡意的數據節點和非惡意的數據節點。

比方說有一個手機，專門想設計一些虛假的數據，以此來控制整個服務器端的平均模型。怎么防止這個現象發生？這些問題在之后的系列公開課中會涉及，這些工作現在都是在進行當中的，大家可以去網上搜。

安全策略方面，有兩個特別的例子，大家在網上都可以找到。一個叫做模型攻擊，它通過對模型的參數動手腳來控制整個聯邦模型。還有一種是對數據攻擊，它參與到聯邦計算里面，使得它對聯邦模型的控制取得決定性的作用，這些都有文章和解決方案。

另外，怎么樣能夠持續鼓勵這些不同的數據擁有方，持續參與到聯邦建模里面來，使得每個人都不斷的獲得收益，同時使得集體的收益最大化？這是博弈論和經濟學、模型應該做的事情，也有很多工作在開展這方面的研究。

聯邦推薦系統

在推薦系統和聯邦學習的這種交集也可以產生，比方說兩個數據方，推薦電影和推薦圖書的，他們兩個在商業上可能沒有競爭，所以它們決定合作，但是又不想把隱私泄露給對方，他們就可以用以下的辦法來做聯邦學習：

ABC不同的數據擁有方，可以通過矩陣分解的辦法，把每一方所擁有的用戶數據看成是一些子矩陣的乘積，用線性代數形成這樣一個子矩陣的乘積，這三個不同的用戶就分解成三個用戶的特征向量乘以一個圖書的特征向量的矩陣，這些向量的計算就是我們通過聯邦學習希望能夠計算出來的。具體到怎么計算，這里有一個算法，看上去比較新穎和復雜，可能會把大家搞暈。

簡單說一下大概做法：

每一個數據擁有方，首先對自己的數據進行矩陣分解，然后再把里面的一部分參數，比如剛才所說的圖書的本征向量進行加密，運到服務器端，就可以把這些不同的向量，通過橫向聯邦學習進行同態平均起來，然后再把平均的更新值再分發給不同的用戶端。通過這樣的一個做法，就可以做到在 Federated Averageing的框架下，做到矩陣的更新。

現在我們也可以推廣到縱向推薦系統，就是他們的用戶有很大重疊，但特征卻沒有重疊。微眾銀行現在推出了第一個用聯邦學習、聯邦推薦做的廣告系統，所以叫做聯邦廣告。這個廣告系統可以不知道用戶的隱私，也可以不確切知道媒體的隱私。

聯邦學習的多場景應用范例

銀行風控

因為我們希望得到的是大數據，也就是說數據來自不同的角度，比方說對用戶貸款進行風險管理，需要財務、輿情、司法、稅務、行政等等很多這樣的數據，他們都是在不同的數據擁有方里面，我們希望是把它們形成一個聯邦的聯盟來共同建模。比如一個合作企業和一個銀行，這是縱向聯邦，因為用戶有足夠大的重疊，但是他們的特征卻不一樣，用剛才所說的那些算法做出來的效果，就提升了不少，在這里對應的就是貸款不良率的大幅下降。

保險業合作

我們現在跟一個瑞士的再保險公司就有深度的合作，所謂再保險就是對保險公司的保險，你可以想象在再保險公司下面有一大堆保險公司，這些保險公司既是競爭又是合作的關系，它們之間的合作就需要用到聯邦學習。

可以通過縱向聯邦，也可以通過橫向聯邦，還可以通過縱向和橫向聯邦的某種結合，變成小范圍的橫向聯邦、大范圍的縱向聯邦。有各種各樣非常有趣的結構，也取得了非常好的效果。

計算機視覺

假設不同的計算機圖像來自不同的公司，他們之間是有這種意愿去合作的。可以想象一個橫向聯邦學習系統，因為他們的圖像樣本不一樣，但特征幾乎都是相同，都是像素，所以可以用在智慧制造、安防、城市這些領域，現在也正在應用當中。

以我們跟極視角的合作為例，他的一個業務是幫助建筑公司去監控建筑工地的安全，這里有很多建筑公司本身的隱私，不想向其他的建筑公司去透露，但是他們每一家的數據又是有限的，通過聯邦學習能夠把總的模型建立起來分發給他們，能夠滿足他們安全施工的要求。

語音識別

語音系統可能是來自不同的錄音，比方說有的是服務中心的錄音，有的是手機上的錄音，有的是別的公司的錄音，那么每一家的錄音可能都是不同的這個角度來觀察這些用戶。有沒有辦法把這些錄音給聚集起來，在不移動那些數據的前提下，建立一個總的模型，利用不同錄音、語言、數據集的錄音來訓練我們的聯邦模型？

無人車

實驗室環境里的無人車，得到的數據是有限的，但是假設滿大街的無人車，每一輛每時每刻都在獲取新的數據。有沒有辦法不暴露每個無人車上具體的數據，同時把它聚集起來，能夠形成一個聯邦模型？具體做法是聯邦學習加上強化學習，就是強化聯邦學習。

供應鏈金融

里面有很多倉庫的管理和監控，就用到剛才所說的計算機視覺和聯邦學習的這種溝通。上下游的關系，庫存的預測，是供應鏈里面的難題，也可以通過這種聯邦學習來更好地解決。

聯邦學習生態構建進行時

暢想一下，未來有了聯邦學習這樣的技術，有了像GDPR還有用戶隱私這樣的監管要求，五年十年以后，我們的社會會發展成為一種什么樣的形式？我也相信我們會到這樣的一個社會節點上，有很多的聯盟會形成，這就是生態。

有很多不同的公司自愿的組織起來，通過聯邦學習，在沒有顧慮的前提下能夠自由合作，聯邦學習的激勵機制可以公平地讓這種生態不斷存活下去，越來越大，像雪球一樣地擴大。它可以防止數據壟斷，讓擁有小數據的公司也可以活下去——我們所說的人工智能的社會性，這是真正能做到Ethical AI的一項技術。

Federated Learning這個詞出現以后，我們就一直在想把這個詞翻譯成中文。我們考慮到，每一個數據擁有方就像一個“邦”，他們之間的關系，就像一個邦交。他們可能還有一個Coordinator，或者是他們共同有這么一個模型，大家在共同使用，這就像是大家所共有的一個服務方，就是一個“聯邦”。

同時我們也領頭建立了第一個IEEE標準，這個標準的制定現在還沒完全結束，現在已經進入了最后關頭。有眾多的著名公司都參與到了這個標準里。當這個標準出現了以后，就會是世界上第一個國際的聯邦學習標準，大家以后通過聯邦學習合作的時候，就可以根據這個標準來進行，有一個共同的語言來交互。同時我們也在積極推動國內的各種標準，包括團體標準和國家標準。

聯邦學習開源項目FATE

假設我們做了一個聯邦學習平臺，用戶會對平臺的安全性有所疑慮，會擔心存在后門。最好的辦法是公開、開源，大家可以看到每一行代碼，可以放心去用。我們從一開始就認為聯邦學習的技術推動，離不開開源。所以我們開源了世界上第一個關于聯邦學習的開源項目，被Linux foundation列為金牌項目，就是FATE系統。

這是一個工業級別的聯邦學習，已經支持我剛才所說的橫向聯邦、縱向聯邦、聯邦遷移學習、聯邦強化學習和聯盟推薦?，F在有新的版本支持異構計算，支持各種各樣的聯邦學習，并且我們跟VMWare深度合作、深度綁定，推出了一個系統，叫做KubeFATE的系統，幫助用戶更好地在Cloud上面進行應用。

聯邦學習還有什么值得研究？這里面還有太多事可以做了，比方說如何能夠做到安全合規、防御攻擊、提升算法效率、提升系統架構，如何做更多的技術應用，做很好的聯盟機制、激勵機制去鼓勵大家。所以在各個方面我們只是開了個頭，后面還有大量的工作是需要做的。

互動問答精選

問：聯邦學習和分布式機器學習最能區分的點是什么？

楊強：首先是數據分布特點。分布式機器學習中數據一般被均勻（iid）的分布至各參與計算節點，目標是通過并行計算提升效率。聯邦學習中數據天然的存在于不同領域、機構的數據孤島中，數據分布差異大，不均勻（Non-iid）。另外分布式學習更關注效率，往往在數據中心進行，數據擁有方是同一個體。聯邦學習更關注安全，數據擁有方是多個個體。

問：現在有公司在做區塊鏈跟MPC（例如聯邦學習，同態加密）的結合，您怎么看？

楊強：區塊鏈與聯邦學習可以很好的結合互補。聯邦學習可以用區塊鏈的分布式記賬等功能實現參與各方價值互換和有效激勵，也可以用區塊鏈去中心化的屬性來實現參與聯邦學習計算的中心節點的替代。區塊鏈與聯邦學習不同，區塊鏈把數據重復復制在各個節點實現共識機制，所有上鏈數據是公開的，而參與聯邦學習的各方數據不同且是私密的。

問：聯邦學習訓練后的模型是一個公共的模型，而各個客戶端的數據經常是Non-iid的，不知老師對此有何見解？

楊強：（橫向）聯邦學習的效果提升主要來源于各方樣本量的聚合，訓練的目標是得到一個在所有參與方數據上都適用的有泛化能力的模型。各方數據分布Non-idd的情況可以通過聯邦學習加元學習、多任務學習來解決。

問：請問如何保證各個部分數據的質量？比如說醫療影像數據標注的質量參差不齊。

楊強：在實際生產上，可以通過在各方節點上部署檢驗機制的方法來為參與訓練的樣本的數據質量進行閾值淘汰，也可以通過結合一些機器學習技術，比如GAN，來模擬生成訓練樣本進行檢驗。另外訓練時多采用cross-validation等數據驗證方法也可以有效控制數據質量問題。

問：聯邦學習中，不同數據孤島在聯邦學習過程中是否有隱含權重（即算法模型中本身沒有設計權重，但實際學習中形成了不同權重），如何解決？

楊強：聯邦學習算法本身按數據量的大小來分配權重，假設數據是分布均勻的。實際上，也可以通過分析數據源與目標數據源的相似性等方法來設計權重。

問：FATE框架和Tensorflow Federated Framework框架各有什么優缺點？

楊強：FATE框架是第一個工業級FL框架，從業界應用出發，支持橫向、縱向和遷移聯邦學習等學習框架和各種安全計算組件。TensorflowTF目前只支持橫向聯邦，多適用于學術研究，相對簡潔，容易上手。

問：聯邦學習對RPA部署及數據中臺部署的影響？

楊強：聯邦學習可以作為RPA中采用AI技術的一個組件。RPA多面臨非標性、數據分隔等挑戰，RPA部署系統可以通過聯邦學習的方式提高產品效果。

問：請問聯邦學習如何應用到教育大數據領域？

楊強：聯邦學習可以幫助實現定制化教育。教育機構可以基于存儲在學生個人移動設備（如智能手機和筆記本電腦）中的數據，協作地構建一個通用學習計劃模型。在此模型基礎上，還可根據每一個學生的特長、需求、技能和興趣，構建定制化、個性化的學習指導模型。

雷鋒網原創文章，詳情見轉載須知。

本站僅提供存儲服務，所有內容均由用戶發布，如發現有害或侵權內容，請點擊舉報。

精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

AI發展困境：小數據與隱私保護

聯邦學習沖破孤島，完成數據“拼圖”

橫向聯邦學習：樣本不同特征同

同態加密

縱向聯邦學習：樣本重疊特征異

第三方能去掉嗎？

聯邦學習和區塊鏈像嗎？

遷移學習：樣本、特征無一重疊

多方參與下如何識別惡意中心和節點

聯邦推薦系統

聯邦學習的多場景應用范例

銀行風控

保險業合作

計算機視覺

語音識別

無人車

供應鏈金融

聯邦學習生態構建進行時

聯邦學習開源項目FATE

互動問答精選

聯邦學習和區塊鏈像嗎？

遷移學習：樣本、特征無一重疊