杭州2018年11月16日電 /美通社/ -- 2018年11月13日,代表 Kubernetes 技術(shù)領(lǐng)域較高峰會的 KubeCon + CloudNativeCon China 2018 在上海拉開帷幕,參與人數(shù)逾 2500 人。這是 KubeCon 盛會首次登陸中國,也是才云 Caicloud 第五次深度參與 KubeCon。
Keynote:《如何基于 Kubeflow 讓國家電網(wǎng)變得更加智能》
在11月15日 Keynote 演講中,才云 COO 韓佳瑤博士和才云 CEO 張鑫博士帶來了《如何基于 Kubeflow 讓國家電網(wǎng)變得更加智能》演講,分享了才云對于新一代 AI 類型業(yè)務(wù)在國家電網(wǎng)眾多生產(chǎn)環(huán)節(jié)場景落地中存在的挑戰(zhàn)和解決辦法。演講中提到在現(xiàn)今中國激烈的數(shù)字化轉(zhuǎn)型市場競爭環(huán)境下,企業(yè)在 AI 類應(yīng)用和服務(wù)落地實踐中正面臨巨大挑戰(zhàn)。
傳統(tǒng)的方式即依托于第三方算法公司進(jìn)行黑盒算法模型開發(fā),無論對企業(yè)維持自身競爭壁壘提高轉(zhuǎn)型效率,還是打破算法科學(xué)家 VS 軟件尤其是底層與平臺工程之間(model developers vs. system admins)的屏障上而言都將變得越來越不可持續(xù)。演講提到,我們對于 CPU 資源分配、調(diào)度、管理和 Java 類應(yīng)用的管理早已進(jìn)入云原生時代,但對于新型 GPU、AI 類業(yè)務(wù)和軟件的資源調(diào)配和管理方式還停留在“史前時代”。
演講繼續(xù)介紹了才云 Caicloud 容器智能云平臺(Caicloud Compass + Caicloud Clever)整體架構(gòu)和工程設(shè)計方案是如何為國網(wǎng)電力實現(xiàn)從底層到 PaaS 一系列資源環(huán)境和工具模塊的協(xié)同從而為最終上層多樣 AI 模型和業(yè)務(wù) Pipeline 進(jìn)行服務(wù)。
Session talk:《從終端用戶角度剖析 Kubeflow 現(xiàn)狀之利弊》
15 日下午在 Room 1 ML 專場的 Session talk 中,才云 CEO 張鑫博士和才云 CTO 鄧德源聯(lián)袂帶來《從終端用戶角度剖析 Kubeflow 現(xiàn)狀之利弊》。以谷歌 AI 負(fù)責(zé)人 Andrew Moore 的觀點 “AI 并不是企業(yè)的華麗魔法,AI 落地任重道遠(yuǎn)”為開場,張鑫介紹了 Kubeflow 項目的使命,是作為搭載在 Kubernetes 之上的可移植、可擴展、可組建的機器學(xué)習(xí)棧。對 AI、機器學(xué)習(xí)應(yīng)用能真正在生產(chǎn)上落地這一目標(biāo)而言,僅有 ML 層面的模型和算法尚不足以滿足這個需求。
盡管外界對 Kubeflow 充滿極大期待和興趣,但目前的 Kubeflow 還遠(yuǎn)不是銀彈。通過和數(shù)十個企業(yè)客戶的調(diào)研,張鑫提到目前 Kubeflow 存在如下問題:
在張鑫和鄧德源看來,所有目前 Kubeflow 所缺乏之種種都是阻礙企業(yè)和開發(fā)者真正將 AI 模型、應(yīng)用、軟件能迅速進(jìn)行開發(fā)并上線生產(chǎn)的原因所在。他們繼續(xù)介紹了才云機器學(xué)習(xí)平臺 Caicloud Clever 是如何從數(shù)據(jù)管理、打標(biāo)系統(tǒng)、批處理作業(yè)和可視化代碼編輯等環(huán)節(jié)來補齊 Kubeflow 現(xiàn)有尚存缺失的功能環(huán)節(jié)。他們表示,在不久的將來,才云將把這些功能盡力推向 Kubeflow 開源版本。
展示劇場(Demo Theatre):Caicloud Clever + Compass
在11月14日下午的展示劇場活動中,才云 Caicloud 研發(fā)副總裁肖勤從中國當(dāng)今企業(yè)需求出發(fā),以多年實戰(zhàn)經(jīng)驗闡述才云 Caicloud 產(chǎn)品為企業(yè)帶來的便利。Caicloud Compass 深度整合 Kubernetes,為用戶提供以多集群、多租戶為核心的資源管理能力;降低企業(yè)運維成本、時間成本,助力企業(yè)搭建功能完備、界面易用、性能卓越的容器平臺。
從企業(yè)角度來看,容器化改造對于關(guān)鍵的業(yè)務(wù)交付效率、基礎(chǔ)設(shè)施資源利用率普遍會帶來很好的收益,尤其是對交付效率和資源成本更為關(guān)注的輕資產(chǎn)型業(yè)務(wù),這也是為何容器技術(shù)得到廣泛關(guān)注與應(yīng)用的主要原因。而相對而言,容器化改造所帶來的問題則可以通過引入一些工具與服務(wù)進(jìn)行解決,比如在 Caicloud Clever 產(chǎn)品中,開源出來的云原生 CI/CD 引擎,可更好地優(yōu)化企業(yè)場景,支持 AI 工作流。
Session talk:《對 Kubeflow 上的機器學(xué)習(xí)工作負(fù)載做基準(zhǔn)測試》
機器學(xué)習(xí)、模型訓(xùn)練處于人工智能革命的前沿,我們相信機器學(xué)習(xí)將帶領(lǐng)我們進(jìn)入通用 AI 時代。當(dāng) Kubernetes 與機器學(xué)習(xí)相遇,又會擦出什么樣的火花呢?我們知道在機器學(xué)習(xí)中,可預(yù)測性最為關(guān)鍵,只有更為精準(zhǔn)的預(yù)測性才能讓 Kubernetes+AI 操作絲毫不差。
此次,才云 Caicloud 工程師高策與 Cisco 高級工程師黃昕元聯(lián)手,以《對 Kubeflow 上的機器學(xué)習(xí)工作負(fù)載做基準(zhǔn)測試》為題,通過 TF CNN 基準(zhǔn)測試工具為我們實際介紹了在機器學(xué)習(xí)中引入 Kubernetes 對于訓(xùn)練速度的影響以及在 Kubernetes 上的 ML 工作量的性能特征。
演講人高策提到“證明在 Kubernetes 上運行機器學(xué)習(xí)或者深度學(xué)習(xí)的工作負(fù)載,由虛擬化引入的在模型訓(xùn)練速度 overhead 可以接受”進(jìn)一步證明了 Kubeflow 在生產(chǎn)環(huán)境使用的可能性。
才云 Caicloud 乘風(fēng)破浪,倍道而進(jìn)
在本次大會中,才云對云計算和智能云平臺落地方案多次發(fā)聲。在一份 2017 年來自美國各行各業(yè)共 201 家企業(yè) IT 決策者的容器部署調(diào)研報告中,90% 的受訪者表示,與虛擬機相比,Kubernetes 具有可擴展性優(yōu)勢,近 75% 的公司正在使用 Kubernetes。如今在中國,利用 Kubernetes 編排也已成大趨勢作為國內(nèi)較早期 Kubernetes + ML 的實踐者,才云 Caicloud 將為推動中國云原生、智能應(yīng)用云原生化繼續(xù)砥礪前行。