職位描述
該職位還未進(jìn)行加V認(rèn)證,請仔細(xì)了解后再進(jìn)行投遞!
崗位職責(zé)
1.負(fù)責(zé)公司高性能計(jì)算( HPC )環(huán)境中 IB 、 RoCE 網(wǎng)絡(luò)的規(guī)劃、部署、優(yōu)化和管理,以及 GPU / DPU 集群的搭建、調(diào)度、優(yōu)化和整體交付。確保計(jì)算資源的高效利用,支持業(yè)務(wù)快速發(fā)展和技術(shù)創(chuàng)新。
2.負(fù)責(zé) GPU / DPU 集群的網(wǎng)絡(luò)規(guī)劃,包括 IB 、 RoCE 等高速網(wǎng)絡(luò)的選型、設(shè)計(jì)和實(shí)施。
3.負(fù)責(zé) GPU / DPU 集群的部署、調(diào)度、管理和優(yōu)化,確保集群的高性能穩(wěn)定運(yùn)行。
4.分析和解決集群中的性能瓶頸問題,對硬件、軟件和算法進(jìn)行優(yōu)化。
5.參與或負(fù)責(zé)新技術(shù)、新方案的調(diào)研、測試和實(shí)施,提升集群的整體性能。
6.編寫相關(guān)技術(shù)文檔,包括網(wǎng)絡(luò)規(guī)劃、部署方案、性能調(diào)優(yōu)報告等。
7.與其他部門緊密合作,確保業(yè)務(wù)需求得到滿足,提供技術(shù)支持和解決方案。
職位要求
1.計(jì)算機(jī)科學(xué)、數(shù)學(xué)、物理等相關(guān)專業(yè)本科及以上學(xué)歷,3年以上相關(guān)領(lǐng)域工作經(jīng)驗(yàn)。
2.熟悉 IB 、 RoCE 網(wǎng)絡(luò),具有 NVIDIA 等 GPU 集群部署、調(diào)度、管理、優(yōu)化經(jīng)驗(yàn),對高性能計(jì)算和數(shù)據(jù)中心網(wǎng)絡(luò)有深入理解。
3.滿足以下至少1條開發(fā)經(jīng)驗(yàn)要求:
--- RDMA 協(xié)議的應(yīng)用優(yōu)化及擁塞控制算法優(yōu)化工作經(jīng)驗(yàn),熟悉 IB 網(wǎng)絡(luò)/ RoCE 。
--- GPU 卡集群部署的性能優(yōu)化工作經(jīng)驗(yàn),了解 GPU 互聯(lián),熟悉 NVLINK 、 NVSWITCH 。
--- GPU 虛擬化,至少熟悉 vCUDA 、 cGPU 、 qCUDA 、rCUDA 等一種虛擬化方案。
--- CUDA 和 NCCL 的優(yōu)化工作,熟悉 CUDA 算子庫、runtime 、 driver 庫相關(guān) API 。
4.具有扎實(shí)的計(jì)算機(jī)網(wǎng)絡(luò)基礎(chǔ),熟悉 TCP / IP 協(xié)議棧、路由交換技術(shù)、負(fù)載均衡等。
5.具備良好的分析問題和解決問題的能力,對解決具有挑戰(zhàn)性問題充滿激情。
6.優(yōu)秀的團(tuán)隊(duì)合作精神和溝通能力,能夠跨部門協(xié)作,推動項(xiàng)目進(jìn)展。
7.具有思科 CCIE 和華為 HCIE 等網(wǎng)絡(luò)認(rèn)證證書者優(yōu)先錄用。
工作地點(diǎn)
地址:武漢江漢區(qū)武漢-江漢區(qū)武漢市江漢區(qū)新華路186號福星國際商貿(mào)大廈4樓


職位發(fā)布者
HR
福星惠譽(yù)控股有限公司

-
房地產(chǎn)開發(fā)·建筑與工程
-
500-999人
-
私營·民營企業(yè)
-
福星國際商會大廈