如今,越來越多企業和機構意識到數據隱私安全保護的重要性。過往,多機構數據聯合使用更多是依靠法律層面的合同文書來限制使用方的行為,一旦出事,再多賠償也無法有效彌補用戶隱私泄露的損失。因此,技術手段是必要的,從技術角度保證數據的多方使用者無法拿到原始數據,無法超范圍使用數據是避免數據泄漏和濫用的有效手段,這也是最近幾年相關技術在市面上影響力越來越高的原因,比如多方安全計算。InfoQ 采訪到了螞蟻摩斯安全計算??平臺研發人員逸昊,了解多方安全計算的應用場景和技術難度。
隨著 2C 互聯網紅利日益遇到瓶頸,越來越多的創業公司走向 2B 創業。與國外相比, 我國的 2B 行業尚有很大發展空間。在此背景下,機構之間的互聯合作技術也越發重要,這是實現 2B 商業模式的橋梁和基礎設施。
傳統機構之間的合作形態一般是提供方 - 使用者,即一方是服務提供方,另外一方是服務使用者,他們是上下游形態的商業關系,比如一家在線旅途 OTA 公司需要接入酒店預定的服務以優化旅游體驗,旅游公司會采購酒店預定服務提供商,技術上一般會使用 Web Service API 來連接。
但是,隨著 2B 應用的深入發展,出現了新型分布式商業的業務形態,傳統的中心化 CS 技術已經不能滿足需要。以金融領域的聯合風控為例:某銀行要做互聯網貸款業務,不同于傳統的線下貸款,壞賬率對于業務成敗非常關鍵,需要對用戶進行更精準的風控刻畫,也需要針對整體的風控算法和參數,與外部多方協同合作。
在這種情況下,我們需要構建分布式的商業形態來解決機構合作的信任和數據安全兩大問題。采訪中,逸昊表示多方安全計算是密碼學很重要的一個分支,其作用是在不泄露數據情況下實現協同計算,即讓多方基于共同的數據進行一個 function 的計算得到最終結果,但數據和中間計算結果在這個過程中不會泄漏給任何一方。這里提到的 function 是廣義層面的含義,可以指計算任務、機器學習任務、數據檢索等。
聯邦學習是谷歌于 2016 年提出的,初衷是用聯邦學習解決中心方使用大量手機終端用戶數據建模的問題,其設計目標是保護終端數據和個人數據隱私,終端數據不離開本地的前提下在中心方協調下完成建模。但自聯邦學習提出之后,其場景范圍越來越廣泛,目前業界公認的只要是場景基于多方數據進行聯合建模,且各自原始數據不對外輸出,由中心方進行協調的建模都可以稱為聯邦學習。
聯邦學習和多方安全計算既有共同點也有區別,如上雙方的場景有共同點,比如涉及多方數據的聯合計算,但多方安全計算不限定是機器學習建模,也可以進行機器學習預測、統計分析等。??聯邦學習也可能不使用多方安全計算,而是其他隱私保護技術,甚至類似普通的分布式建模不用隱私保護技術。這些方式跟多方安全計算相比是犧牲隱私保護的程度換取性能提升、實現簡化。
從應用場景來看,聯邦學習起初主要應用在 C 端,這個場景是非常合適的。隨著機構之間的合作越來越多,需要根據不同的應用場景進行選擇不同技術方案,尤其是訓練敏感的金融風控場景,多方安全計算被日益重視。
除了多方安全計算,行業還提出了多種方案來保護數據隱私。跟傳統的多方安全多方計算的理念不同,一些流行的方案采用隱私換性能的思路,部分應用多方安全計算技術或采用其他隱私計算計算,只保護了部分數據、部分計算過程,泄露了中間計算結果。這些方案主要適用于“橫向聯合”場景:數據來源于每個終端,各終端間的數據是同質關系。這種情況下其他方案一般泄露的中間計算結果是批量樣本的匯聚信息(比如批量樣本的梯度信息),泄露的敏感信息相對較少。
但如果是“縱向聯合”的場景(例如大多機構間的數據合作),沿用這類方案在隱私保護上就要特別小心。如果還是讓一個中心方得到模型或各方都得到部分模型,在很多 2B 場景這種方式是不可接受的,尤其是訓練敏感的金融風控模型。同時,這類方案在“縱向聯合”泄露的中間計算結果更容易包含敏感信息。在“縱向聯合”的場景更適合完全應用多方安全計算技術全方位保護所有敏感數據和整個計算過程。但需要注意的是,這里應用的挑戰很大,需要很好掌握多方安全計算技術和細細打磨產品。
在算法方面,多方安全計算涉及的隱私保護技術和算法非常多,其由四大類截然不同的??基礎隱私保護算法組成:分別是秘密分享、??混淆電路、不經意傳輸、??同態加密?,其中又可細分出很多不同的算法,??功能不一,能做的運算不同,??性能優缺點等都不一樣。??通常,對于不同的計算任務,比如不同的統計指標還會有??各種各樣的算法。????在商業應用中,為滿足性能和安全性要求,還需要配合使用一些其他技術。??比如為了滿足安全性要求,還需要配合使用零知識證明算法。要掌握這些算法、靈活組合運用、實現它們以及設計新的算法去滿足業務要求,其實難度很高。????以螞蟻摩斯多方安全計算平臺為例,它使用了 30 多種??隱私保護算法,??且這些算法實現難度很大。
在當前的多方機構數據合作場景中,多方安全計算節點會部署到各個機構,實現“數據??不出域、數據隱私不泄露”的安全合作。那么,除多方安全計算算法外,異構網絡下的分布式計算也是一大難度。
在逸昊看來,多方安全計算平臺是一個??分布式大數據系統,??這個大數據系統與很多互聯網公司或企業內部的大數據系統差別很大:首先這涉及多管理域,多管理域的大數據分布式拓展是一個難點。??更復雜的是,每個機構的網絡架構不同,網絡安全策略不一,??計算資源和網絡資源都差異很大,??要把整個系統??的性能和可靠性??維持到很好的程度,挑戰很大,甚至還要把各機構之間的節點做到網絡互聯互通。????
此外,在當前的機構環境下做到遠程部署、維護和升級也是一大難題。??綜上,多方安全計算的技術難點一是體現在算法層面;二是涉及多機構的分布式系統管理。
從安全性來看,為了簡化問題,學術界為多方安全計算定義了一個安全模型,叫半誠實用戶模型,假設每個參與方都是老老實實的執行所規定的算法。??一旦假設被違背,數據存在泄露風險。最近這幾年,學術界越來越多考慮更強的安全模型,假設參與方能夠隨意做惡、去偏離約定協議的,這種安全模型下的算法在最近這幾年逐漸成熟。
螞蟻摩斯也在進行相關探索,目前已經有大部分功能達到這一強??安全模型要求。??未來是希望可以做到全面支持,這就意味著安全性層面會有較大提升。以去年的國際隱私計算比賽 iDASH 為例。去年有 100 多支參賽隊伍,不乏谷歌、IBM、微軟、斯坦福、MIT 等名企名校,其中多方安全計算機器學習賽道各家方案性能差距巨大,螞蟻摩斯設計的方案最終奪得冠軍,其性能比其余方案快幾倍到幾個數量級。今年,螞蟻摩斯繼續迭代,性能又提高了數倍,大大縮小了跟本地明文計算系統的運行效率差距。截至目前螞蟻摩斯已經擁有相關技術專利超過 70 項,位居第一。
從技術路線上來看,螞蟻摩斯積極探索布局的安全協同計算技術不限于多方安全計算,有共識計算和安全計算兩大方向。前者是區塊鏈技術為代表的分布式共識計算,以密碼學技術和共識算法為基礎;后者是以 多方安全計算 MPC 和可信執行環境 TEE 為代表的安全計算,分別以密碼學技術和可信硬件為基礎。參與計算的數據類型也可以分為公域數據和私域數據,共識計算主要是解決公域數據的一致性問題,而安全計算主要是解決私域數據計算的數據隱私和輸出可信問題,包含隱私計算和可信計算兩個特性。
共識計算 :面向公域數據,解決多家機構對于賬本、計算 (合約) 的分布式一致性問 題,最終多個機構對業務過程和結果達成共識,并且單一方不可篡改過程;
安全計算 :面向私域數據,解決機構的數據安全和隱私保護問題,在不泄漏各自數據明細、中間計算結果的情況下僅僅公開最終計算結果。同時更進一步,最終結果也可以是可驗證的。
兩者解決的問題不同,但兩者具備很好的互補性。共識計算不能解決數據的隱私問題,安全計算也不能解決輸入數據造假等信任問題,兩者結合起來才來兼顧信任和隱私問題。此外,安全計算技術經常還需結合其他隱私計算技術(例如,差分隱私、零知識證明 ZKP、匿名化和脫敏技術)來使用。
跟 MPC 和 TEE 相比,這些隱私計算技術一般不支持多方數據計算,或者不具備可信計算特性,但各種技術都有其特點如下圖,對帶寬和計算要求都不盡相同,目前還沒有“銀彈技術”,需要針對場景選擇合適的技術。
除了單獨應用上述不同協同計算技術,螞蟻集團還靈活結合各種協同計算技術,全方位地保護數據隱私、保證數據可信。螞蟻的產品摩斯就集成上述各種技術,可根據實際場景和客戶需求靈活部署和運用各種技術。
目前,螞蟻摩斯已經服務于各行各業,??典型的應用場景比如金融聯合風控、聯合營銷、聯合科研、政務數據安全計算等。??以金融風控為例,銀行通過該項技術與合作方做風控,效果提高了 25%。?
嘉賓介紹:
逸昊,來自螞蟻集團??智能科技事業群,負責參與螞蟻集團摩斯安全計算??平臺研發,主要是多方安全計算的算法和隱私保護機器學習的算法。????于 2017 年加入螞蟻集團,過往曾在華為新加坡研究所、南洋理工大學從事算法研究工作,從 2012 年開始從事該領域和相關領域的研究。
螞蟻摩斯是螞蟻集團旗下的多方安全計算商用平臺,基于多方安全計算、隱私計算、區塊鏈等技術,實現數據可用不可見,解決企業數據協同計算過程中平臺 / 產品業務的數安全和隱私保護問題,助力機構安全高效地聯合風控、聯合營銷、聯合科研等,驅動業務增長。
專題推薦:
《聯邦學習在金融領域的實踐和落地困境》
近兩年來,聯邦學習發展迅速,其作為分布式的機器學習范式,能夠有效解決數據孤島問題,讓參與方在不共享數據的基礎上聯合建模,從技術上打破數據孤島,實現 AI 協作。基于聯邦學習的技術生態,特點如下:數據隔離,聯邦學習的整套機制在合作過程中,數據不會傳遞到外部;無損,通過聯邦學習分散建模的效果和把數據合在一起建模的效果對比,幾乎是無損的;對等,合作過程中,合作雙方是對等的,不存在一方主導另外一方;共同獲益,無論數據源方,還是數據應用方,都能獲取相應的價值,這些特點讓該技術解決了金融領域的許多問題。InfoQ希望通過選題的方式對金融領域應用聯邦學習的具體情況、解決的問題、改進優化方案等內容進行呈現,并推動該技術在這一領域的發展。
鏈接:https://www.infoq.cn/theme/58
你也「在看」嗎???