职位描述
1. 负责文本、语音、图像等基础开源大模型部署运维、训练微调优化及基础应用服务开发;
2. 与算法、数据、工程团队协作,推动模型调优方案在业务场景的快速落地应用;
3. 深入分析模型训练与推理中的性能瓶颈(如显存、算力、通信开销),提出创新性解决方案;
4. 针对智能生产、智能办公场景微调一批小模型,加快新质生产力赋能业务。
5. 计算机科学、人工智能、数学、统计学或相关领域硕士及以上学历;
6. 精通NLP、强化学习和LLM技术路线,精通PyTorch/TensorFlow等深度学习框架,深入理解大模型训练技术(如ZeRO、梯度累积、模型并行、流水线并行、优化器选择、学习率调度);
7. 熟悉Megatron-LM、DeepSpeed、Colossal-AI等分布式训练框架,掌握大模型的微调技术(如LoRA、RLHF、Adapter、Prompt Tuning),能够根据业务需求对预训练模型设计并实现模型训练策略;
8. 熟悉主流参数调优方法(如学习率调度、优化器选择、权重初始化、正则化策略)
9. 具备高性能计算(HPC)经验,熟悉CUDA、NCCL、GPU/TPU集群资源管理;
10. 具备Langchain、LlamaIndex 、Ollama、Vllm、Docker等大模型应用技术框架开发能力;
11. 扎实的编程能力(Python/C ),熟悉Linux开发环境及Shell脚本。