精品伊人久久大香线蕉,开心久久婷婷综合中文字幕,杏田冲梨,人妻无码aⅴ不卡中文字幕

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
云計算時代的深度學習訓練

云計算時代,數據量和數據維度急劇增加,對深度學習訓練造成越來越大的壓力,來自七牛云的技術專家林亦寧在 OSC 年終盛典上帶來了關于深度學習訓練的演講,將就大量分布式集群下,如何高效、可靠地構建深度學習訓練計算任務進行了干貨分享。以下是他的演講內容。

林亦寧

七牛云技術專家,浙江大學博士畢業,在機器視覺和深度學習領域有 10 余年的研究和開發經驗,有多年創業經驗,曾任無人機、智能家電領域公司首席技術官。

云計算和深度學習這兩個東西很火,它們只有緊密地聯系在一起才能發揮出各自最大的優勢。

在與客戶或者同行交流的過程中,我們發現除了一些很大的公司,比如 BAT 或鏈家這樣上軌道的公司之外,大部分的公司做算法、深度學習時用的還是單機版的深度學習平臺。這樣的平臺,對于滿足目前的數據量、數據吞吐量以及對計算的迭代速度要求,都有很大的局限性,也無法滿足現在的處理要求。

Why?

接下來我將會以七牛為例,分享七牛是如何考慮和實現深度學習的。

主要從三個階段分享,首先是考慮清楚為什么要做這件事。七牛云是一個以云存儲技術為核心的云服務公司,平臺上現在有 60 多萬企業用戶和個人開發者, 80% 的手機 App 或多或少都用到了七牛的云存儲,幾乎在場的每個人的手機里,都有正在用著七牛云存儲服務的 App 。

簡要介紹一下七牛的歷史,七牛一開始做云存儲,開發存儲 API 。2012、2013 年短視頻有了一個爆發式的增長,包括媒體行業都有爆發式的增長,所以七牛隨著這一波互聯網 App 的興起也有了爆發式的增長。后來七牛給客戶提供了很多基礎服務,主要是一些富媒體數據,例如音視頻。隨后客戶提出更多要求,例如需要計算、文件處理、點播以及直播的解決方案等等。所以現在七牛是一個云平臺公司,包含以上所有的服務。

第二個階段是要到哪里去,七牛提出的口號是 「Time to be an AI Company 」,這個口號不僅是內部的,也是對客戶的引導。

提出這個口號有兩個原因,第一個是內在原因,可以看到移動終端年增長率在逐年下降;另外,三五年前,拿到一個客戶需要一塊錢,新增一塊錢可以多十塊錢的利潤,這就是很好的生意。但現在拉一個客戶成本是十塊錢,產生的經濟效益也還是十塊錢。這個時候,賬就算不平了。所以現在并不是一個做 App 創業的好時機。

第二個是外因,現在的應用環境和技術環境,都已經到了一個 AI 可以成熟應用的時間點。應用環境是有海量的富媒體數據,可以通過一些手段充分挖掘出大數據內在的價值;交互方式開始日益多樣化,以前是發短信,后來流量多了可以發圖片,后來網絡好了,又可以發視頻,現在可以看直播,直播以前是用聊天室聊天,現在可以發彈幕、送主播「海陸空」。交互方式越來越多樣化,帶來的好處是能夠更容易讓用戶付費。

另外一點,從技術環境來說,云計算技術和深度學習技術都已經到了一個可以轉化為生產力的時間點。30 年前就有了深度網絡,那時候還稱為神經網絡;上個世紀八十年代的東西到現在突然火起來的主要原因是,硬件技術可以實時把推理的結果返回來,而且結果還不錯。做一個人臉檢測挺準的,這個就是應用環境和技術環境可以把 AI 轉化為生產力的時間,給客戶提出一個口號,即尋找更多的連接,讓這個連接更加智能,使得客戶愿意在單位的連接上掏出更多的錢,這個才是以后生意的方式。

所以要給客戶設計這樣一個機器學習的平臺,包括三部分:一個數據,一個算法,一個模型。這是對一個機器學習平臺最簡單的抽象。

How ?

首先思考需要解決哪些問題,最重要的分為三個方面:效率、規模以及機器學習本身的一些內在性的需求。

規模

所謂的規模問題有三點。一是數據總量增長很快,每年公有云和視頻數據增長比例達 60% 多。第二點是數據量非常大,比如七牛有 2000 億張圖片,有超過 10 億小時的視頻,如何去挖掘數據內在的價值,這本身就是一個非常頭疼的問題。第三點是吞吐量大,例如 1080P 的攝像頭,一個攝像頭在一個小時產生的數據是 1.8G,一個城市有幾十萬個攝像頭,像北京這種城市甚至幾百萬,三個月產生的數據是 EB 級別,數據的吞吐量非常大,所以在設計系統的時候必須能跟上新增數據的節奏。

效率

很多人說現在的互聯網是云計算。但是實際上云計算不是一朵云,互聯網上也不是只有一朵公有云,而是有很多云,例如存儲、日志服務器、計算集群等等。我們的系統需要在這一朵朵云之間架起橋梁,連接起來。很多時候它們不在同一個機房,甚至不在同一個城市,而系統需要在能保證足夠的速度和帶寬的前提下,讓數據可靠地傳到最終學習的集群。

規模機器學習的原生需求

圖 1

第三個是機器學習的原生需求,七牛把機器學習的計算過程抽象為兩種:數據和訓練的作業。原生的需求包括很多方面,圖 1 列了幾條需求,例如一個是能讓整個訓練快速迭代;第二個是進程停了可以隨時重啟,數據應該是安全的;然后是各個訓練任務之間需要與它的資源隔離開;訓練作業需要分布式。還有其他的需求,例如可視化、模型融合、模型管理,這些都是機器學習本身訓練的需求。

What ?

圖 2

圖 2 是深度學習平臺的架構,底層是前面介紹的各個文件系統,在這個上面做了一層 Caching IO ,即分布式內存服務器,計算時所需要的數據都是通過它來做提取,大家可以參考一個開源項目 - AlluxIO ,七牛的設計跟它有一些近似。在 IO 之上抽象為 Docker,來計算任務和資源分配以及調度。在這個基礎之上,編排系統也是參考了開源的項目。七牛做這個項目的時間其實比較早,大概一年兩年前就做了,主要是擔心開源項目任性說不干就不干了,所以自己寫了一套東西。

有這么一套編排系統以后,可以很方便地構建一個分布式的系統,它的核心是一個參數服務器,這里推薦一個基于 Caffe 的分布式框架 Poseidon,它針對深度學習任務優化了計算集群內部的通信,在降低通信量的同時保證很好的迭代性。有了分布式的系統和編排系統之后,把上面的作業抽象為一個一個的獨立鏡像,比如數據清理,有五種數據清理的方法就做五個鏡像。數據放大也類似,包括訓練和推理,都會做出相應基本的鏡像去調用。在這個基礎上會把作業全都抽象為一個圖的形式表達,以及用數據流的方式去表達整個作業的過程。

這些抽象完了以后,就是上面一個一個的應用,可以看到有迭代學習的需求,有增量學習的一些任務或者半監督的任務,包括模型怎么比較、怎么融合,都是跑在整個系統的 App。這個 App 通過底層這一套基于圖和流式的系統來支撐。最后模型訓練完了,會有一個 API 的管理系統,這個管理系統可以提供自動的 API 生成,提供自動的評估以及恢復的升級這些功能。例如訓練完一個模型后,但不知道這個模型實際效果如何,這時可以選擇一個恢復升級的方式,先升級 10%,再自動驗證效果,如果好再升級 30%,可以把這個過程全部編排在 API 里。所有數據到達數據庫存里,這就是整個深度學習系統。七牛用電影“機械姬”的女主角之名 Ava 來命名它,希望它能像 Ava 一樣冰雪聰明。

下面稍微介紹一下上面跑的幾個 App,流式的計算用法,例如一個鏡像是一個基本的操作單元,還有一個是 eval 評估服務,只需要把數據流畫出一張圖,把地址指定,得到結果的集合,這是一個能夠極大降低算法人員的工作成本的服務,使算法工程師能更專注算法本身。

圖 3

圖 3 是迭代和增量訓練的系統,也是基于剛才那一套訓練平臺開發的 App。為了解決不斷有新數據的流式訓練的任務,傳統的方法需要先建立一個數據文件,現在把這個過程放到一個獨立的進程來做。沒有新數據來的時候就會把這個數據編排到整個數據池的底部,在訓練的時候可能會用一些 Cheet,會用同個模型,因為不知道是哪個,甚至訓練到一半發現不對勁,但是又不想把當前的訓練停下來,隨時可以開啟一個新的訓練,用當前這個模型改一個參數讓它跑,前面的訓練以一個副本的形式在跑,最后達到做模型融合或者模型比較的方法。最后在模型融合或者模型比較完成以后,把模型推到一個 API 生成器上自動生成 API 。整套過程下來,可以減少總是重復訓練同一批數據的環節。

圖 4

這個也是七牛做得比較有意思的實驗,半監督的方式打標,怎么做?來了數據先保證數據打過標,不過還是會有沒打過標的,尤其流式進來的數據,這個數據量很大,打標也很痛苦,七牛用一些訓練好的分類器對未打標的數據做分類,同時做一個聚類,未打過標的數據中跟打過標的數據聚類最接近的一些數據,以及標簽是一致的數據,用打過標的訓練新的模型,這個過程需要迭代,一開始沒有打過標的用了 20%,下次迭代一次以后又會加 10%,迭代幾輪以后可以很大程度降低一個打標的工作,最后用這樣的方式訓練新的模型。

圖 5

圖 5 是模型融合的方法,列舉了三種方法,七牛都在做一些嘗試。最簡單的是線性的融合方式,比較復雜的是中間有一個網絡做融合,第三個比較傳統,把融合放在前面一層。用的最多是線性的融合方法,節省資源,也不太傷腦筋。

總結

AI 需要三方面的結合:平臺、算法和數據。只有這三點能非常好地結合到一起,才能產生經濟效益。

本站僅提供存儲服務,所有內容均由用戶發布,如發現有害或侵權內容,請點擊舉報
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
360推薦系統架構演進
神經網絡與深度學習概述 第三章 深度學習的概念及理解
分布式深度學習新進展:讓“分布式”和“深度學習”真正深度融合
從零到一:帶你認識深度學習!
優美的信息圖:吳恩達點贊的deeplearning.ai課程總結
HALCON 20.11:深度學習筆記(5)
更多類似文章 >>
生活服務
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯系客服!

聯系客服

主站蜘蛛池模板: 玛曲县| 营口市| 区。| 高陵县| 双桥区| 务川| 湘潭县| 桦甸市| 新宁县| 贵州省| 佛学| 乐亭县| 襄汾县| 石渠县| 饶阳县| 武隆县| 嘉黎县| 合阳县| 宣化县| 高要市| 田东县| 康定县| 自贡市| 高邑县| 西城区| 新和县| 峨眉山市| 郧西县| 怀远县| 兴安盟| 大名县| 清新县| 莱州市| 通化市| 邻水| 荣成市| 昔阳县| 永登县| 石首市| 延边| 临高县|