職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責:
1.硬件監(jiān)控與維護: GPU 集群安裝與維護,管理 BMC IPMI 硬件報警系統(tǒng),建立和維護硬件告警工單體系;
2.負責機器內(nèi)硬件固件的升級維護、問題定位,進行硬件/ BIOS 性能調(diào)優(yōu)。監(jiān)控和維護 RDMA 網(wǎng)絡(luò)/交換機,調(diào)整水線,進行故障定位;
3.軟件運維:負責監(jiān)控、日志、存儲、工單系統(tǒng)組件的搭建及運維管理;
4.IDC管理:負責 IDC 的備件庫存管理,確保7*24小時 oncall 響應(yīng),處理機房問題(如斷電、溫度過高等),協(xié)調(diào)廠商上門升級服務(wù),對故障機器組件(如網(wǎng)卡、主板、光模塊、線纜)進行更換和維修;
5.遠程分析數(shù)據(jù)中心運行中需求和技術(shù)問題,推動并提升數(shù)據(jù)中心的運維效率;
6.負責常見故障處理;協(xié)助進行現(xiàn)場資產(chǎn)的統(tǒng)計與登記,確保資產(chǎn)安全。
職位要求:
1.本科及以上學(xué)歷,計算機、電子信息等相關(guān)專業(yè);
2.至少3年以上機房運維或算力集群運維執(zhí)行經(jīng)理經(jīng)驗,熟悉人工智能和大模型行業(yè);
3.熟悉高算力服務(wù)器產(chǎn)品,對于高算力服務(wù)器問題進行運營處理,具備一定的維修能力;
4.熟悉 Linux 系統(tǒng)、虛擬化技術(shù)、容器技術(shù)等,有大規(guī)模集群運維經(jīng)驗者優(yōu)先。
5.精通監(jiān)控和告警系統(tǒng),如 Prometheus 、Grafana 、 Zabbix 等。
6.良好的溝通能力和團隊協(xié)作精神,能夠在壓力下有效解決問題。
工作地點
地址:武漢江漢區(qū)武漢-江漢區(qū)武漢市江漢區(qū)新華路186號福星國際商貿(mào)大廈4樓


職位發(fā)布者
HR
福星惠譽控股有限公司

-
房地產(chǎn)開發(fā)·建筑與工程
-
500-999人
-
私營·民營企業(yè)
-
福星國際商會大廈