1、基本的编码基础(python) 对于任何编程工作来说都是必须的。数据名字和值得对应(字典),对一些url进行处理(列表)等等。掌握牢固。熟悉python编程语言,熟悉相关的框架和库。我主要用Python写爬虫。 2、任务队列。 当爬虫任务很大的时候,写一个程序跑下来是不合适的: 所以我们需要一种任务队列,它的作用是:讲计划抓取的网页都放到任务队列里面去。然后从队列中拿出来一个一个执行,如果一个失败,记录一下,然后执行下一个。这样就可以一个接一个地执行下去。也增加了扩展性,几亿个任务放在队列里也没问题,有需要可以增加worker,就像多一双亏筷子吃饭一样。 3、数据库 数据保存肯定要会数据库的。不过有时候一些小数据也可以保存成json等。我有时想抓一些图片就直接按照文件夹保存文件。推荐使用NoSQL的数据库,比如mongodb,因为爬虫抓到的数据一般是都字段-值得对应,有些字段有的网站有有的网站没有,mongo在这方面比较灵活,况且爬虫爬到的数据关系非常非常弱,很少会用到表与表的关系。 4、HTTP知识 HTTP知识是必备技能。因为要爬的是网页,所以必须要了解网页。首先html文档的解析方法要懂,比如子节点父节点,属性这些。我们看到的网页是五彩斑斓的,只不过是被浏览器处理了而已,原始的网页是由很多标签组成的。处理最好使用html的解析器,如果自己用正则匹配的话坑会很多。 5、运维 实际工作中运维和开发的时间差不多甚至更多一些。维护已经在工作的爬虫是一个繁重的工作。随着工作时间增加,一般我们都会学着让写出来的爬虫更好维护一些。

ID:22410
立即预约
立即收藏
沟通需求

微信扫码,联系客服沟通需求
个人介绍
项目经验
爬百度贴吧的评论 爬京东的商品名和价格包括图片评论,保存到excel 爬取豆瓣电影的评分,详细介绍报保存成文件 爬取斗图网的图片保存文件
接单发单客服

添加客服微信,接单发单快人一步!
相关程序员推荐
dqzboy 高级运维工程师 7年经验
我是一名拥有超过7年运维经验的工程师,专注于容器技术、K8s集群管理以及DevOps流程。在互联网企业中,我负责过多个项目的方案规划和搭建维护,具备丰富的技术敏感度和故障排查经验。我熟悉阿里云、腾讯云、AWS等主流云服务平台,并对新兴技术保持浓厚兴趣,成功在多个项目中实现技术落地。
接外包 0年经验
本人已经工作五年
1.熟练使用U3d引擎
2.熟练使用c#、xLua、Shader Graph
3.各种插件
4.熟悉数据结构与算法
5.熟练使用设计模式
leon 5年经验
本人擅长Python、Golang等后端Wev开发;擅长多种数据库操作;擅长小程序、网络、算法相关的项目开发;并且有一群靠谱且技术过硬的小伙伴;本人崇尚合作精神,是一个遵守规则的人。