职位描述
【保定总部工作】
1. 负责定向数据的采集与爬取、解析处理、入库及备份等数据日常工作;
2. 研究主流网站的爬取方法及数据清洗处理,负责非定向数据的清洗、整理、整合及合并等工作;
3. 参与分布式爬虫的框架的维护与开发;负责公司采集系统架构开发和性能优化;爬虫框架工具化,使数据采集人员简单适用,高效采集数据;
4. 及时解决生产上的系统问题,并对用户提供技术支持;并能根据项目安排采集指定站点数据;
5. 其他部门内数据相关工作。
任职资格:
1. 本科以上学历,计算机相关专业;
2. 5年以上Python开发经验,至少2个以上完整的中大型爬虫开发经验;
3. 熟练掌握基于爬虫框架Selenuim、Scrapy、PySpider、Crawley,puppeteer;
4. 熟悉浏览器运行原理,懂得js逆向,熟悉web端常用反爬技术;
5. 熟悉抓包工具(Wireshark、Fiddler、charles等);
6. 熟练使用一种以上数据库(Doris/MySQL/mongodb)与消息中间件kafka;7. 具有反爬解决经验,对Js逆向、封IP 、复杂验证码、模拟Cookie 登录等,有过实际经验;