职位描述
目标定位:k8s中级运维工程师
职责/能力要求:
1.负责阿里云,华为云和微软公有云K8s集群和服务的维护、配置。
2.集群可靠性:提升混合云K8S(kubernetes)集群的可靠性和性能,通过分析和优化集群风险点和资源配置确保集群的高可用性和稳定性。
3.问题和故障处理:快速识别、解决k8s集群问题和故障,保证业务连续性,进行故障排查,确定问题源头,并提供解决方案或优化建议。
4.安全和风险管理:参与集群架构的风险评估确保系统运维和合规性,预防和应对潜在风险。
5.自动化工具开发:开发自动化脚本或工具,提高工作效率,简化操作,提高系统自动化程度。
6.性能优化和容量规划:分析和优化K8S性能和容量,以满足业务需求;通过性能测试和容量规划,提升集群使用率并规划使用场景。
7.紧急响应和事件处理:参与紧急事件处理,快速响应并恢复系统正常运行,对紧急情况进行快速响应和处理,持续提升MTTR和SLA。
8.部署和维护自建机房硬件设备。
9.参与私有云平台建设,按照规范对平台进行监控、调整和维护。
职位要求
1.计算机、电子信息、软件工程、通信、自动化相关专业的本科以上学历,至少3年相关工作经验。
2.具备K8S相关工作经验,熟练K8S部署应用和可靠性的基本原理和实践。
3.熟练掌握Docker,Containerd, Harbor,Prometheus,Jenkins等工具,熟练掌握nginx、elk、redis等工具。
4.熟练掌握Linux系统和常用运维工具,如Shell,Ansible,监控工具,日志分析等。
5.熟练掌握Helm,能够解决Helm问题。
6.熟悉Calico,Flannel等K8S CNI原理和故障排除,熟悉TCP/IP,DNS,HTTP等。
7.具备良好的团队协作和沟通能力,能跨团队协作。
8.具备良好的问题解决和故障排除能力,能快速响应并解决问题。
9.具有CKA,CKS证书者优先,熟悉 Vmware、Openstack 环境优先。
10.对基于LLM应用工作流或agent编排、构建及相关工程化有了解及应用经验优先。
其他信息