職位描述
該職位還未進行加V認證,請仔細了解后再進行投遞!
崗位職責:
1.硬件監(jiān)控與維護: GPU 集群安裝與維護,管理 BMC IPMI 硬件報警系統(tǒng),建立和維護硬件告警工單體系;
2.負責機器內硬件固件的升級維護、問題定位,進行硬件/ BIOS 性能調優(yōu)。監(jiān)控和維護 RDMA 網絡/交換機,調整水線,進行故障定位;
3.軟件運維:負責監(jiān)控、日志、存儲、工單系統(tǒng)組件的搭建及運維管理;
4.IDC管理:負責 IDC 的備件庫存管理,確保7*24小時 oncall 響應,處理機房問題(如斷電、溫度過高等),協調廠商上門升級服務,對故障機器組件(如網卡、主板、光模塊、線纜)進行更換和維修;
5.遠程分析數據中心運行中需求和技術問題,推動并提升數據中心的運維效率;
6.負責常見故障處理;協助進行現場資產的統(tǒng)計與登記,確保資產安全。
職位要求:
1.本科及以上學歷,計算機、電子信息等相關專業(yè);
2.至少3年以上機房運維或算力集群運維執(zhí)行經理經驗,熟悉人工智能和大模型行業(yè);
3.熟悉高算力服務器產品,對于高算力服務器問題進行運營處理,具備一定的維修能力;
4.熟悉 Linux 系統(tǒng)、虛擬化技術、容器技術等,有大規(guī)模集群運維經驗者優(yōu)先。
5.精通監(jiān)控和告警系統(tǒng),如 Prometheus 、Grafana 、 Zabbix 等。
6.良好的溝通能力和團隊協作精神,能夠在壓力下有效解決問題。
工作地點
地址:武漢江漢區(qū)武漢-江漢區(qū)武漢市江漢區(qū)新華路186號福星國際商貿大廈4樓


職位發(fā)布者
HR
福星惠譽控股有限公司

-
房地產開發(fā)·建筑與工程
-
500-999人
-
私營·民營企業(yè)
-
福星國際商會大廈