职位描述
职责描述:
1. 负责定义不同类型应用的运维解决方案,包括应用准入、应用运行环境定义、应用发布/扩容/重启、应用日志采集等;
2. 负责应用全生命周期的系统级可用性守护,包括系统监控、系统故障处理、故障迁移、故障演练等 ;
3. 参与系统运维文档编写、操作设计、自动化工具和平台建设,持续提升交付效率,优化运维操作流程;
4. 负责IDC和云主机系统信息管理,包括主机名、账户权限、初始化配置、堡垒机权限等;
5. 负责基础设施故障响应和故障处理,精细化监控大规模服务集群,保障线上应用的安全稳定运行;
6. 主动发现技术架构/工作流程方面的问题,持续推动问题改进。
任职要求:
1. 本科及以上学历,5年以上运维岗位工作经验;
2. 可阅读开源项目源码并能使用Python、Go、Java中至少一种语言编写可维护代码;
3. 熟悉Linux操作系统如CentOS、Debian等的常用命令使用、操作系统配置优化,深入理解各CPU、内存、网络、磁盘个系统指标的含义,有跨团队协作、快速定位、解决线上问题的实际经验;
4.熟悉常见开源负载均衡(如:Nginx、Apache)系统,熟悉开源系统的底层原理,有系统部署、故障排查、性能调优的实际工作经验;
5.熟悉主流监控系统(如Zabbix、Prometheus)的搭建和使用,有从操作系统到中间件的监控指标和报警策略的设计经验,有通过性能监控指标分析提出相关性能调优方案的经验;
6.管理过百台以上服务器设备,有业务应用视角的集群规划、管理、控制、监控方案的实际经验 ;
7.有公有云(AWS/华为云/阿里云等)、私有云(OpenShift)或者容器云(K8S)的一项或多项实践经验;
8.工作认真,责任心强,有良好的语言表达能力,具有服务意识和团队合作精神;具有混合云架构下的解决方案设计或实践经验者优。