当前位置:首页>职位列表>职位详情
运维主管(AIDC机房) 10000-15000元
杭州滨江区 5年以上 本科
杭州维服科技有限公司 2025-09-01 00:13:09 1人关注
职位描述
岗位职责
1. 负责 AIDC机房运维团队的日常管理、工作分配与绩效考核,带领团队保障 7×24 小时稳定运行。
2. 制定并完善机房运维制度、标准化作业流程、应急预案及安全管理规范。
3. 协调厂商、客户、工程团队,统筹处理机房运维相关的跨部门事务。
4. 全面负责机房供配电系统、UPS、PDU、精密空调、液冷/浸没式冷却、消防系统等设施的运行、巡检、维护与优化。
5. 监督机房设备上架、布线、标签管理、资产登记等操作,确保部署规范、线路整齐、安全可控。
6. 管控机房温湿度、功率分布及环境监控系统,及时处理各类机房告警。
7. 管理并维护 GPU/CPU 混合算力节点、并行存储系统(Ceph、Lustre、BeeGFS)、高速网络(25G/100G、InfiniBand、RDMA)等核心设备。
8. 负责集群调度系统(Slurm、Kubernetes GPU Operator)的稳定运行与资源优化分配。
9. 制定机房及算力中心的安全策略,包括物理安全、数据安全及访问控制。
10. 监督落实应急演练、灾备切换、事故调查与复盘机制。
11. 对运维风险进行分析评估,提出优化与改进建议,降低运维事故发生率。

任职要求
1. 计算机、通信、电子、自动化或相关专业,本科及以上学历,5 年以上数据中心或 HPC 集群运维经验,其中 2 年以上团队管理经验。
2. 熟悉机房基础设施运行原理与维护方法,具备 IDC 项目管理与改造经验。
3. 精通 Linux 系统管理与网络架构,掌握高速网络(InfiniBand、RDMA)运维技术。
4. 熟悉 GPU 服务器及 HPC 集群运行原理,有 AI 算力平台运维或优化经验优先。
5. 具备良好的组织协调能力、跨部门沟通能力与团队领导力。
6. 有运维自动化、监控平台建设经验(Prometheus、Zabbix、Ansible 等)者优先。
7. 持有相关认证(如 NVIDIA NVAIE、RHCE、HCIE-Cloud、Uptime ATD)者优先考虑。
联系方式
注:联系我时,请说是在今日招聘网上看到的。
工作地点
地址:杭州滨江区长河街道长河路,新东忠科技园4号楼7楼
以担保或任何理由索取财物,扣押证照,均涉嫌违法,请提高警惕

若您已有简历,可直接登录登录

  • 省份

    注:0表示面议
    获取验证码
    保存并投递
    投递简历
      马上投递
      投递简历
        马上投递

        企业
        服务热线

        • 400-6680-889
        1. 登录
        2. 注册
        客户服务热线:
        400-6680-889
        在线客服:
        点击这里给我发消息 898995850
        工作日:
        8:30-18:00