ID:21288
崔静 高级node.js工程师,高级python工程师 8年经验
2024-12-18
个人介绍:1、node.js / Express / Koa 框架,API接口输出,web页面搭建。 1.1、node-crawler 爬虫框架 2、python / Flask / Django 框架,API接口输出,web页面搭建。 2.1、scrapy 高并发爬虫框架 3、RestFul API 接口架构设计,提供高可用性的对外输出数据接口。
项目经验:hsb_spider工程 内容: ● Scrapy框架搭建起来的一个项目 用途: 1. 为内部估价系统提供外部数据分析做支撑。 2. 机型机况自动更新、各渠道价格对比。 3. 历史数据沉淀至BI系统,做大数据分析。 @requests 4. 提供实时的API接口,供估价系统做单个机型下某个机况的询价或机况更新。 ● 负责设计、开发、维护爬虫系统 ● 参与数据层建设,专注于垂直领域的数据爬取,进行多平台信息的抓取和分析 ● 设计爬虫反屏蔽规则,提升网页、APP抓取的效率和质量 ● 实现数据提取、清洗、结构化、入库、统计分析等需求 技术: 1. rabbitMQ做消息队列,将机况数据推送至队列里面,消费者消费数据获取价格。 2. 分布式消费者,在确保IP代理和账号安全访问次数满足的情况下提供消费速度。 3. Redis缓存,存储在定期时间内的机型价格数据,避免重复爬取,减少资源开销。 4. 针对爬虫的不稳定性情况,接入了钉钉预警处理。在捕获到不能正常采集到数据时, 第一时间自动通知到指定负责人。 5.进程多开: 在业务需要的情况下开启多进程处理量大的友商渠道爬取任务。 业绩: ● 搭建了Scrapy框架统一的管理业务中各个渠道的爬虫,统一管理,统一部署。 ● 摆脱了之前的临时脚本处理爬虫零散的状态。 估价系统 研发 内容:● 各个友商渠道的机型数据采集、分析、入库。 ● 机型机况组合,获取价格。 ● 友商价格对比。 ● 自有价格估价调整。 ● 价格预测。 ● 历史数据分析。 业绩:稳定提供外部友商数据给内部业务做数据支撑。 二、vantop_spider_x 1、搭建针对电商网站的大批量高并发爬虫架构。 2、经过验证的量有当日最高采集量5000W,采用的消息队列的方式实现分布式高并发采集架构。
技      能: Node.js  
¥1100 / 8小时
立即预约
立即预约
意见反馈