职位描述
岗位职责:
● 负责公司内部数据湖/数据仓库的基础设施建设 ,打造高效 、可靠的数据聚合和清洗平 台, 为人工智能应用提供高质量的数据支撑。
设计和实现数据聚合 、清洗 、转换和加载( ETL) 流程 ,确保数据的准确性 、完整性 和一致性, 支持公司内部的业务需求和数据分析工作。
● 优化数据处理流程和架构, 结合公司内部离线 、实时和AI应用场景, 进行深度开发和 优化, 提升数据处理效率和性能。
● 支持大模型训练和微调工作, 与算法工程师紧密合作, 提供数据支持和优化建议,确 保数据能够高效地用于模型训练和微调。
● 编写数据开发文档, 记录数据处理流程 、数据架构设计和技术实现细节, 为团队成员 提供技术指导和参考。
● 协助业务部门处理海量数据 ,解决数据处理过程中的疑难问题, 充分发挥数据价值, 为业务决策提供支持。
● 持续优化数据平台的性能和稳定性 ,确保数据处理的高并发 、高可用性和高可靠性。
任职要求:
● 本科及以上学历, 计算机及相关专业 ,5年以上大数据开发 、数据仓库建设或相关领域 工作经验。
● 具备丰富的数据湖/数据仓库建设经验, 熟悉数据聚合 、清洗 、转换和加载( ETL) 流 程, 能够高效地设计和实现数据处理架构。
● 熟练掌握至少一种主流的大数据处理技术栈, 如Hadoop 、Spark 、Flink 、Hive、 Presto等, 能够基于这些技术进行深度开发和优化。
● 熟悉数据仓库建模和设计, 能够根据业务需求设计高效 、可扩展的数据模型, 支持离 线 、实时和AI应用场景。
● 具备数据处理性能优化经验, 能够针对大规模数据处理任务进行调优 ,确保数据处理 的高并发 、高可用性和高可靠性。
● 熟悉机器学习和深度学习的基本概念, 了解大模型训练和微调的基本流程,能够为算 法工程师提供数据支持和优化建议。
● 熟练掌握至少一种编程语言 (Java 、Python 、Go等), 具备良好的编程习惯和代码规 范意识, 能够编写高质量 、可维护的代码。
● 熟悉Linux操作系统, 具备扎实的数据结构和算法基础, 能够高效地处理复杂的数据问 题。
有以下经验者优先:
● 参与过数据湖/数据仓库的完整建设周期, 包括需求分析 、设计 、开发 、测试和部署。
● 有源码级优化经验或深入研究者优先, 开源社区优秀项目Contributor 、Committer优 先。
● 熟悉多云环境下的数据处理和存储解决方案, 具备相关实践经验。
● 有处理大规模数据和高并发请求的经验, 具备分布式系统开发和运维能力 。
备注:薪资面议