职位描述
工作职责:
1、负责智算分布式推理平台开发,实现大模型的推理集群纳管、推理镜像跨域分发、推理服务部署、推理服务调试、推理服务可观测、推理服务加速等能力开发工作;
2、负责智算分布式多集群编排调度能力研究和开发工作,支撑大模型的跨集群训练推理,实现通、智、边一体化调度;
3、负责推理服务弹性伸缩的研究和开发工作,提升推理平台资源利用率;
4、负责三方智算算力云原生纳管、推理服务一键纳管迁移功能的开发工作,实现智算算力并网;
5、负责智算推理平台基于不同架构芯片的适配、调优过程的支撑。
任职资格:
1、本科及以上学历,计算机、人工智能相关专业,3年以上相关工作经验;
2、精通Go语言或者Java语言,熟练阅读框架源码;
3、熟练掌握云原生、容器、K8s等相关技术,有云原生相关项目经验、参与过开源社区者优先;
4、需对AI推理服务、云原生AI、AI大模型训练推理框架、微服务框架、服务网格、DevOps、CI/CD、云原生可观测、云原生多集群调度中的一种或多种技术有相关的使用经验;
5、具备AI推理平台、国产化AI芯片开发等开发经验者优先;
6、熟练掌握基本的Linux操作;
7、具有较强的架构设计能力,能够独立设计复杂分布式系统,有架构设计经验者优先;
8、具有较强的沟通能力、学习能力、主观能动性、团队协作和分析能力。