丝袜人妻一区二区三区_少妇福利无码视频_亚洲理论片在线观看_一级毛片国产A级片

當前位置:首頁 > 奇聞趣事

edl 一文讀懂百度PaddlePaddle EDL技術

新智元專欄

【新智元指南】百度和CoreOS聯(lián)合開發(fā)的Paddle Paddle Elastic Deep Learning(EDL)技術可以將一個集群的利用率提高到接近100%,而基于HPC的一般深度學習集群的利用率往往低于10%。本文調查了設計文檔和源代碼,采訪了EDL的主要設計者王毅,并在操場集群部署了EDL,對槳式彈性深度學習技術進行了深入解讀。

最近在Kubernetes官方博客上看到一篇專題文章http://blog . kubernites . io/2017/12/Paddle-Paddle-Fluid-Elastic-Learning . html,介紹百度和CoreOS聯(lián)合開發(fā)的Paddle Paddle Elastic Deep Learning(EDL)技術。實驗表明,該技術可以將集群的利用率提高到接近100%。要知道一般基于HPC的深度學習集群利用率往往不到10%。而且集群的成本很高。這項技術可以使投資獲得多重收益,每年可以減少公司數(shù)百萬美元的計算投資,從而吸引在人工智能領域苦苦掙扎的團隊。

遺憾的是,以上很短。為了深入了解PaddlePaddle EDL,我調查了設計文檔和源代碼,采訪了EDL的主設計師王毅,并在游樂場的集群上部署了EDL。我把我的探索寫成了三篇文章

1.對EDL的深度解讀

2.EDL工業(yè)園區(qū)建設

3.EDL和無人駕駛技術

本文是第一篇。

一般云環(huán)境下的機器學習訓練任務包括幾個主進程,一些參數(shù)服務器進程,更多的訓練進程。這些流程都在云機器集群中運行,有時需要與其他培訓任務共享計算資源,經常需要與其他云服務(如web服務)共享資源。理想狀態(tài)是機器學習訓練系統(tǒng)知道根據(jù)集群資源的使用情況和每個任務的優(yōu)先級動態(tài)調整參數(shù)服務進程和訓練進程的數(shù)量,從而充分利用集群CPU/GPU。這是彈性深度學習(EDL)系統(tǒng)的設計目標。

EDL和HPA

水平Pod自動縮放(HPA)是由Kubernetes提供的一種靈活的調度機制。它的出發(fā)點是通過在單個計算任務中向每個Pod公平分配計算資源,實現(xiàn)單個任務分布式系統(tǒng)資源的優(yōu)化利用。在“訓練深度學習模型”的場景中,“單個計算任務”可以是訓練用于識別圖像中的對象的模型,而另一個“單個訓練任務”可以是訓練語音識別系統(tǒng)。這兩個培訓任務需要部署在同一個集群中,部署時間不同,資源要求也不同。理想情況下,自動縮放控制器對每個這樣的訓練任務所需的系統(tǒng)資源有全局理解,然后根據(jù)需要分配資源。而HPA控制器對不同的訓練任務并沒有這樣的全局理解。

另一方面,HPA的靈活調度是針對同一類型計算任務下的Pods。然而,深度學習系統(tǒng)中的訓練過程和參數(shù)服務器往往在不同類型的Pods中。我們想要來自autoscale的不同種類的播客。這些深度學習培訓系統(tǒng)的獨特要求導致在使用Kubernetes時需要特定的靈活調度解決方案,而不是直接采用HPA。而這個具體的解決方案就是EDL在這篇論文中所討論的那個PaddlePaddle。

PaddleEDL的設計與實現(xiàn)

1.讓Kubernetes支持定制的靈活調度機制

1)配置文件

Kubernetes本身支持定制的資源管理機制。用戶可以提交定制的資源聲明文件和控制器文件,以實現(xiàn)某些Pods的靈活調度。以下圖為例,這個training_job.yaml保證控制器會自動監(jiān)管pservers,并保證它們的數(shù)量在最小實例和最大實例之間。

在Kubernetes集群上,這個定制的資源可以通過kube CTL create-f training _ job . YAML命令獲得。接下來,我們需要一個定制的trainingjobcontroller來調度這個資源。

定制的培訓作業(yè)控制器在Pod中運行,對集群資源有統(tǒng)一的理解。它通過Kubernetes API監(jiān)控和調度集群資源。下圖是培訓作業(yè)控制器配置文件的示例。

在Kubernetes集群上,這個定制的資源管理Pod可以通過ku bectl create-f training _ job _ controller . YAML命令啟動。

2)控制程序的實施

目前有兩種方法可以在Kubernetes中實現(xiàn)上面提到的定制資源。一個是自定義資源定義(CRD),由庫本內特公司1.7版引入。另一個是第三方資源(TRP),它是從Kubernets版本引入的,在1.8版本中被否決,在1.9版本中不再被支持。PaddlePaddle項目現(xiàn)在使用Kubernetes版,所以實現(xiàn)了TRP模式,未來還會集成CRD模式。

目前,PaddlePaddle假設只有一個訓練作業(yè)控制器在運行。(后續(xù)工作可能會考慮多個控制器的操作,比如按照一定的領導選擇機制管理多個控制器)

當前培訓作業(yè)控制器根據(jù)以下邏輯管理資源:

靈活調度算法

PaddlePaddle根據(jù)定制資源的配置文件(training_job.yaml)判斷一個作業(yè)是否需要靈活調度,判斷標準為min-instance =/max-instance of trainer和pserver。(目前PaddlePaddle只支持教練機的靈活調度,不支持pserver的靈活調度。)

集群中圖形處理器的調度

控制器知道集群中有多少個GPU,當前有多少個空閑GPU,并嘗試將所有空閑GPU分配給當前訓練任務。PaddlePaddle為需要GPU的訓練任務定義了一個“完成分數(shù)”,這個分數(shù)的范圍是[0,1]。PaddlePaddle會優(yōu)先分配GPU資源給滿意度分數(shù)最低的訓練任務。如果分數(shù)相同,優(yōu)先考慮GPU需求,CPU需求,內存需求。如果一個訓練任務的GPU最小實例不滿足(除非cur-instance=min-instance),PaddlePaddle會取出滿意度最高的訓練任務中的GPU資源,分配給它。如果度分值最高的訓練任務為cur-instance=min-instance,則整個集群將不再執(zhí)行新的訓練任務,新的任務需要等待。

集群中中央處理器的調度

CPU資源的分配和GPU一樣。控制器知道集群中有多少CPU和內存以及它們的負載情況;同時也知道訓練任務的CPU要求。同樣,CPU資源也是根據(jù)滿意度評分來分配的。

具體調度實現(xiàn)細節(jié)見https://github . com/PaddlePaddle/cloud/tree/develop/go/controller。

2.讓PaddlePaddle支持容錯

本文討論了PaddlePaddle的容錯機制。原則上,在分布式訓練任務中,如果主進程或所有參數(shù)服務進程都死了,整個訓練任務會在一段時間后由Kubernetes停止并重新啟動。否則,如果不是所有的具體訓練過程都死了,整個訓練任務就繼續(xù)。讓我們看看PaddlePaddle的錯誤恢復機制。

PaddlePaddle使用etcd記錄訓練過程的狀態(tài)。Etcd是一個高度可靠的分布式鍵值存儲,訓練過程會定期將自己的狀態(tài)寫入etcd,必要時會利用這些信息恢復訓練過程。具體流程如下:

主進程

當主進程由Kubernetes啟動時,它會執(zhí)行以下操作:

1.從etcd獲取唯一的主鎖,以避免多個主實例的存在

2.檢查etcd中是否有任務隊列。如果不存在,則創(chuàng)建一個新的任務隊列;否則,獲取此任務隊列中的信息

3.把自己的ip地址寫入etcd中的key /master/addr,方便后面的訓練過程和自己交流

4.在端口監(jiān)視器中打開培訓過程的任務要求。如果您從培訓過程中收到任務請求,請從任務隊列中取出任務并分配它,然后更新任務隊列。

如果主進程因為任何原因死亡,Kubernetes會重啟,從重啟到獲取etcd信息,再到獲取訓練進程的任務,一般需要幾分鐘。

培訓過程

當訓練過程由Kubernetes啟動時,它執(zhí)行以下操作:

1.檢查etcd中包含的參數(shù)服務前綴/ps/以獲取參數(shù)服務進程的當前數(shù)量,并等待直到該數(shù)量滿足配置文件中的要求

2.從etcd的/master/addr鍵獲取主進程地址

3.發(fā)起任務請求以掌握并根據(jù)任務啟動培訓計劃

訓練過程結束后,Kubernetes會重新啟動,新的過程會重復上述工作,直到新的訓練開始。

參數(shù)服務流程

當參數(shù)服務過程由Kubernetes啟動時,它執(zhí)行以下操作:

1.從etcd /ps_desired中讀取培訓任務所需的參數(shù)服務流程數(shù)

2.在ETCD/PS/

在etcd中創(chuàng)建這個條目作為它自己的id。(如下圖所示)

3.參數(shù)服務過程將從其相應的etcd路徑中找到現(xiàn)有的訓練結果參數(shù),并將其讀入

4.參數(shù)服務流程開始接收來自培訓流程的請求。

劃槳EDL和庫貝弗洛

開源社區(qū)中另一個與Kubernetes緊密結合的深度學習系統(tǒng)自然是來自Google的TensorFlow。近日,谷歌開啟了KubeFlow項目,旨在利用Kubernetes來調度Tensorflow,完成大規(guī)模的訓練任務。

從設計理念和實施思路來看,槳EDL和庫貝弗洛有很多相似之處。從開源的時候開始,他們是同時的。百度和谷歌的工程師對同一話題的理解幾乎是一樣的。但是兩者也有一些區(qū)別。

首先,KubeFlow只支持張量流,而Paddle EDL只支持PaddlePaddle。而且都是靠底層的Kubernetes。Paddledl似乎更深入地集成了Kubernetes,比如使用可定制的資源分配,用定制的邏輯與Kubernetes API進行交互。而庫貝弗洛似乎直接使用了庫貝內特的一般功能。所以在靈活調度的功能上,PaddlePaddle采用了上面討論的EDL模式,而KubeFlow現(xiàn)在是HPA模式。這是他們最大的區(qū)別。

此外,雖然兩者都支持一般的Kubernetes+docker環(huán)境,但是KubeFlow和深度學習生態(tài)系統(tǒng)中Google的其他開源項目一樣,都高度提倡在GCE上部署和Google云服務的深度集成。槳EDL不強調云供應商服務的部署。

由于Paddle EDL和KubeFlow只是開源項目,更多的細節(jié)仍在發(fā)展中,我相信開源社區(qū)會加深對它們的使用和理解。不過有一點可以肯定,Kubernetes和深度學習系統(tǒng)的結合會越來越緊密,一個更接近Kubernetes API,可以調度不同后端訓練系統(tǒng)(不再綁定Tensorflow或者PaddlePaddle)的抽象項目可能正在醞釀中。

1.《edl 一文讀懂百度PaddlePaddle EDL技術》援引自互聯(lián)網(wǎng),旨在傳遞更多網(wǎng)絡信息知識,僅代表作者本人觀點,與本網(wǎng)站無關,侵刪請聯(lián)系頁腳下方聯(lián)系方式。

2.《edl 一文讀懂百度PaddlePaddle EDL技術》僅供讀者參考,本網(wǎng)站未對該內容進行證實,對其原創(chuàng)性、真實性、完整性、及時性不作任何保證。

3.文章轉載時請保留本站內容來源地址,http://f99ss.com/guonei/1150469.html

上一篇

男女收入差距擴大 什么原因所致男女收入差距擴大?

下一篇

騰訊視頻回應慶余年超前點播爭議 具體如何回應

鄂爾多斯公共資源交易中心 【通知】鄂爾多斯市人民政府關于公布鄂爾多斯市公共資源交易監(jiān)督管理辦法的通知

鄂爾多斯市人民政府關于發(fā)布《鄂爾多斯市公共資源交易監(jiān)督管理辦法》的通知 鄂府發(fā)〔2018〕77號 各旗區(qū)人民政府,市人民政府各部門,各直屬單位,各大企事業(yè)單位: 《鄂爾多斯市公共資源交易監(jiān)督管理辦法》已經2018年市人民政府第十次常務會議審議通...

長沙公共資源交易電子服務平臺 為她們點贊|長沙公共資源交易中心信息管理科;長沙市芙蓉區(qū)定王臺街道社區(qū)衛(wèi)生服務中心

長沙公共資源交易電子服務平臺 為她們點贊|長沙公共資源交易中心信息管理科;長沙市芙蓉區(qū)定王臺街道社區(qū)衛(wèi)生服務中心

《詩經》說:“桃死,燒其花?!眱?yōu)秀的女性像初春的桃花一樣綻放!在這個詩情畫意的季節(jié),最美最華麗的是三八紅旗手(集體)!她們是榜樣,她們是先鋒,她們與新時代同行,她們?yōu)樾碌哪繕硕鴬^斗,她們在新的征途上做出貢獻,展現(xiàn)了長沙女性在新時代的燃燒風格。...

工業(yè)設計在線 教指委推薦!工業(yè)設計在線課程資源請查收

工業(yè)設計在線 教指委推薦!工業(yè)設計在線課程資源請查收

國家精品在線開放課程課程名稱大學名稱課程負責人設計的力量湖南大學誰能老年人住宿空和環(huán)境設計清華大學周燕珉人的因素與設計文化清華大學Raopeilun每個人都熱愛設計山東大學王振亞設計創(chuàng)意生活山東大學王振亞環(huán)境設施設計江南大學/江南大學章靈昊構建...

20項年底前均能完成年度任務

蘇寶勛(記者張?zhí)焯?昨天下午,市人大常委會視察了2016年蘇州市實際工程竣工情況。據(jù)了解,今年我市實用項目總體進展良好,按時間進度分六類20個實用項目正在穩(wěn)步推進,其中10個已完成或超額完成年度目標任務,預計年底前全部項目將完成年度目標任務。市...

kindle電子書 史上最全的Kindle電子書資源網(wǎng)站整理

kindle電子書 史上最全的Kindle電子書資源網(wǎng)站整理

注意:排名是順序的,前面的比較好用。 萬度論壇:http://www.kindle10000.com/forum.php 遠讀:http://readcolor.com/ 免費閱讀:http://readfree.me/ 漫畫推送:http:/...

我國將實施首次火星探測和月球采樣返回任務

新華社國務院新聞辦公室27日發(fā)布了題為《2016年中國航天》的白皮書。白皮書稱,2011年以來,中國航天產業(yè)持續(xù)快速發(fā)展,自主創(chuàng)新能力顯著增強,進入空能力大幅提升,基礎設施不斷完善。載人航天、探月、北斗衛(wèi)星導航系統(tǒng)、高分辨率地球觀測系統(tǒng)等重大項...

中國稀土儲量 中國八種礦產資源儲量世界第一

中國是世界上幅員遼闊、成礦地質條件優(yōu)越、礦產齊全、資源豐富的國家,是一個具有自身資源特色的礦產資源大國。世界三大成礦域均進入中國,礦產資源相對齊全。 中國已發(fā)現(xiàn)171種礦物。根據(jù)探明儲量,我國有45種優(yōu)勢礦物,其中一些儲量相當豐富,如稀土金屬、...

政府配置資源方式 出臺頂層設計

政府配置資源方式 出臺頂層設計

根據(jù)中共中央辦公廳、新華社國務院辦公廳發(fā)布的《關于創(chuàng)新政府資源配置方式的指導意見》,授權新華社于11日發(fā)布。在特定領域,自然資源應在建立產權制度的基礎上,實現(xiàn)資源的有償獲取和使用;在經濟資源(主要是金融和非金融經營性國有資產)方面,要突出國有資...