职位描述
岗位职责
1、平台设计与构建:
负责基于 Kubernetes 的容器化 PaaS 平台的设计、部署、升级和生命周期管理。
设计和实现高可用、多集群、多租户的 Kubernetes 架构,支持跨云/混合云部署。
建立和维护容器镜像的构建、扫描、存储和分发(CI/CD 流水线)体系。
2、运维与稳定性保障:
负责生产级 Kubernetes 集群及其核心组件(如 etcd, CoreDNS, Ingress Controller)的日常监控、排障、性能调优与容量规划。
制定并实施集群的备份、恢复、灾难恢复策略。
建立完善的日志、监控、告警体系(如使用 Prometheus, Grafana, Loki, ELK 栈)。
响应和处理与容器平台相关的生产事件,参与值班轮岗。
3、服务与网络治理:
设计和维护服务网格(如 Istio, Linkerd)策略,服务发现、流量路由、熔断、金丝雀发布等。
负责容器网络方案(如 Calico, Cilium, Flannel)的选型、部署和问题排查。
管理持久化存储方案(如 CSI 驱动),确保有状态应用的数据可靠性。
4、安全与合规:
实施容器及 Kubernetes 集群的安全加固,包括网络策略、Pod 安全策略/标准、机密管理(如 Vault, Sealed Secrets)。
确保镜像安全,集成镜像漏洞扫描工具到流水线中。
遵循行业安全***实践和公司合规要求。
5、效能提升与赋能:
开发和维护面向开发者的 Helm Chart、Operator 或自定义资源,简化应用部署和管理。
编写和维护清晰的平台文档、操作手册和***实践指南。
为内部开发团队提供容器化、平台使用相关的技术咨询和培训。
6、配合知识库文档编写、维护和更新;配合运维流程优化,自动化和标准化建设。
7、负责7*24运维响应服务,主动发现问题并及时上报。
技能要求详细描述
1、大专及以上学历,计算机相关专业,至少2年以上云计算工作经验。熟悉主流云平台如阿里云、华为云、腾讯云运维管理,腾讯云优先。
2、精通 Kubernetes:深入理解其架构、核心概念(Pod, Deployment, Service, Ingress, ConfigMap/Secret, PV/PVC 等)、调度原理和扩展机制。
3、丰富的生产实践经验:有至少2年大规模生产环境 Kubernetes 集群的运维和管理经验,处理过各种故障和性能问题。
4、扎实的 Linux 基础:熟悉 Linux 系统管理、网络、内核参数调优及容器底层技术(Namespace, Cgroups, UnionFS)。
5、熟练的编程/脚本能力:至少精通 Go/Python/Shell 中的一种,能编写自动化脚本和工具。
6、熟悉至少一种主流的云服务提供商(如 AWS EKS, Azure AKS, Google GKE 或阿里云 ACK)的容器服务及相关产品。
7、熟悉 CI/CD 理念和工具链(如 GitLab CI, Jenkins, ArgoCD, Flux)。
8、具备出色的故障排查能力和系统性思维,对稳定性有极高的追求。良好的团队协作和沟通能力,以及用文档清晰表达复杂技术问题的能力。
9、具备良好的团队协作能力,能够和团队成员有效合作。具备强烈的责任心和主动性,有清晰的解决问题的思路,并能够承担一定的工作压力。