傅瑞|Python数据分析|爬虫专家|要接单-程序员接单平台

ID：22659

傅瑞爬虫专家

公司信息：Python数据分析

工作经验： 6年

薪资价格：700/天

所在区域：福州

浏览次数：506次

登录次数：55次

最近登录：2025-06-07

认证情况：

掌握技能：

其他

立即预约

立即收藏

沟通需求

微信扫码，联系客服沟通需求

个人介绍

负责根据需要爬取的数据进行需求分析，分析目标网站的网站结构和一些反爬手段；
负责通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取，对抓取到的数据进行清洗过滤，分表存储，以供其他部门使用；
负责定期维护ip代理池，清除失效代理ip，根据爬取过程中遇到的一些反爬手段，优化自己的程序；
负责使用web的Django框架参与其他公司内部软件的开发；
负责数据的去重，清洗，对于亚马逊ip反爬，检测验证码，制定具体应对措施。

项目经验

项目名称: 基于爬虫和大数据的结合
开发周期: 3个月（2023-2-2023-3）
项目描述:
爬虫将数据导入到mysql数据库中，通过sqoop将MySQL中的数据导入到Hadoop的hdfs中，Hadoop集群运用hive进行sql数据库查询，使用hdfs将数据存储在节点，并实现提取出用户留存率，日创建用户和日活跃用户，用户地址，各个年龄段的用户。通过一系列的数据筛选，提取，转换来调查用户需求，来描绘用户画像。
 项目架构: Mysql + Sqoop + Hadoop +python爬虫
 技术实现:
1. 使用爬虫将爬到的数据传入mysql里面。
2. 使用Sqoop将MySql的业务数据导入HDFS,将原本就保存在本地的了日志文件导入到HDFS
3. 使用Sqoop将MySql的业务数据导入HDFS,将原本就保存在本地的了日志文件导入到HDFS
3.使用SparkCore/SparkSql对数据进行清洗，最后将数据存到Hdfs，映射的到hive表；
3. 创建ODS、MI、DWD、WT、DIM、TMP层；
5. 将数据进行图表展示，发送给运营、产品、测试、管理层。

发布需求

点击发布需求，客服审核通过后会展示订单，程序员会在任务下报名，招聘专员也会在1小时内与您联系，帮助您精准找到符合要求的程序员！

发布需求

接单发单客服

添加客服微信，接单发单快人一步！