當(dāng) “智慧視聽” 加速發(fā)展,如何讓異構(gòu)算力不再是 “各自為戰(zhàn)” 的資源孤島,讓 AI 推理高效支撐海量用戶的實(shí)時交互需求?某省級廣電找到了這兩大難題的解決之道。
隨著業(yè)務(wù)逐漸向智能推薦、虛擬互動、內(nèi)容 AI 審核等方向升級,省級廣電原有的 IT 底座新增了以下難題:
一是異構(gòu)算力管理難。為支撐不同 AI 場景,省級廣電陸續(xù)部署了不同類型的 GPU、NPU 硬件,造成算力資源分散,既無法實(shí)現(xiàn)統(tǒng)一管理與運(yùn)維,也難以靈活調(diào)配,資源利用率低和算力缺口同時存在。
二是實(shí)時推理響應(yīng)慢。內(nèi)容創(chuàng)作、智能審核、智能推薦等 AI 新興場景,對 AI 推理的 “響應(yīng)速度” 的要求很高,然而不同場景需要部署多種類別的大模型和小模型,傳統(tǒng)模型的開發(fā)及部署環(huán)境配置又相對復(fù)雜。
在青云 AI 智算平臺與智算解決方案的支持下,省級廣電實(shí)現(xiàn)了自動化、智能化地調(diào)度與管理智算資源,為 AI 業(yè)務(wù)開發(fā)與部署提供強(qiáng)有力的支撐。
對異構(gòu)算力的集約化納管。實(shí)現(xiàn) NVIDIA、昇騰等智算的統(tǒng)一納管,基于 RoCE 組建 400G、200G 高速網(wǎng)絡(luò),為分布訓(xùn)練和大規(guī)模數(shù)據(jù)處理提供并行存儲服務(wù)。
vGPU + NPU 統(tǒng)一資源調(diào)度。統(tǒng)一調(diào)度 GPU、vGPU、NPU 計算資源,實(shí)現(xiàn)資源的動態(tài)分配和合理調(diào)度,滿足 AIGC、音視頻等業(yè)務(wù)場景中,分布式模型訓(xùn)練、在線推理和數(shù)據(jù)處理等對算力的多樣化需求。
統(tǒng)一管理、運(yùn)營與運(yùn)維。實(shí)現(xiàn) “租戶隔離+資源組+配額(GPU/存儲)” 的多級管控,幫助管理員實(shí)現(xiàn)精細(xì)化資源分配,實(shí)現(xiàn)多種計算場景服務(wù)的標(biāo)準(zhǔn)化運(yùn)營,以及規(guī)范化、可視化的高效運(yùn)維。
打造公共 API 服務(wù)平臺。為不同部門、不同業(yè)務(wù)提供公共推理 API 服務(wù):包括文本對話、視覺理解、文生圖、文生視頻、圖生視頻、語音合成、語音識別等,減少重復(fù)模型部署,快速支撐客戶應(yīng)用開發(fā)落地。
從分散管理到統(tǒng)一調(diào)度,從按單一模型部署到復(fù)雜場景需求的滿足,省級廣電實(shí)現(xiàn)了 “算力+調(diào)度+服務(wù)+運(yùn)營” 四位一體,既滿足了現(xiàn)有模型訓(xùn)練、內(nèi)容創(chuàng)作、智能審核等業(yè)務(wù)需求,又充分考慮了長期擴(kuò)展性,保證了公司在廣播電視及文化傳媒領(lǐng)域的人工智能應(yīng)用創(chuàng)新活力:
● 算力資源高效利用,多維度支撐不同項(xiàng)目和業(yè)務(wù)場景的多元算力需求。
● 通過集中管理和優(yōu)化資源分配,減少硬件投資的重復(fù)建設(shè),降低運(yùn)維成本和復(fù)雜性。
● 開發(fā)、訓(xùn)練、推理、模型服務(wù)一體化交付,構(gòu)建以大模型為中心的新應(yīng)用架構(gòu)。
青云期待在持續(xù)合作中,與省級廣電共同創(chuàng)新,推動廣播電視及文化傳媒行業(yè)向智能化、規(guī)模化持續(xù)邁進(jìn)。