负责根据需要爬取的数据进行需求分析,分析目标网站的网站结构和一些反爬手段; 负责通过requests、scrapy、scrapy-redis、xpath等技术手段编写爬虫程序进行内容抓取,对抓取到的数据进行清洗过滤,分表存储,以供其他部门使用; 负责定期维护ip代理池,清除失效代理ip,根据爬取过程中遇到的一些反爬手段,优化自己的程序; 负责使用web的Django框架参与其他公司内部软件的开发; 负责数据的去重,清洗,对于亚马逊ip反爬,检测验证码,制定具体应对措施。
个人介绍
项目经验
项目名称: 基于爬虫和大数据的结合 开发周期: 3个月(2023-2-2023-3) 项目描述: 爬虫将数据导入到mysql数据库中,通过sqoop将MySQL中的数据导入到Hadoop的hdfs中,Hadoop集群运用hive进行sql数据库查询,使用hdfs将数据存储在节点,并实现提取出用户留存率,日创建用户和日活跃用户,用户地址,各个年龄段的用户。通过一系列的数据筛选,提取,转换来调查用户需求,来描绘用户画像。 项目架构: Mysql + Sqoop + Hadoop +python爬虫 技术实现: 1. 使用爬虫将爬到的数据传入mysql里面。 2. 使用Sqoop将MySql的业务数据导入HDFS,将原本就保存在本地的了日志文件导入到HDFS 3. 使用Sqoop将MySql的业务数据导入HDFS,将原本就保存在本地的了日志文件导入到HDFS 3.使用SparkCore/SparkSql对数据进行清洗,最后将数据存到Hdfs,映射的到hive表; 3. 创建ODS、MI、DWD、WT、DIM、TMP层; 5. 将数据进行图表展示,发送给运营、产品、测试、管理层。
接单发单客服
添加客服微信,接单发单快人一步!
相关程序员推荐
王于辰 全栈开发工程师 3年经验
擅长写vue springboot 项目以及微信小程序 uniapp
杭州紫冰科技有限公司 AI、前后端开发 4年经验
我们是一支来自阿里、美团由软件高级工程师、算法工程师组成的高端软件研发团队。团队小而精,自2022年成立以来,为客户提供十几个软件解决方案。设计领域为门户网站、CRM系统、智能化系统、AI大模型、计算机视觉领域。已经有大量的项目开发经验。
少风 视觉工程师 4年经验
应用类视觉需求可联系我
码农 5年经验
五年后端开发经验,一年前端开发经验,精通php开发语言,精通uniapp,vue2,做过许多类型的项目,分销商城类,erp类,展示类,同城陪玩,企业管理,家教,充电桩,合同签约,借贷,租房,医疗器材等