1、useragent模仿谷歌浏览器,获取十几个代理ip,爬的过程中不断轮换ip。
2、通过注册等各种方法,获取一个真实账号,模拟登陆,每次请求携带登录产生的cookie。
3、设置定时器,直接爬取所有能爬取的数据。
遇到过的:
1、根据一定行为特征,封IP或者弹验证码。
2、蜜罐,确认是爬虫之后,返回虚假数据。这套玩法,厚颜无耻得说,在线下我算是先行者。当年汽车大V@王洪浩 和我一个宿舍,老是偷偷把公用电脑上我的作业拷走去交差(那个时候的学生穷呀,只能一个宿舍五六个人公用一台电脑)。于是有一次,我把作业里面一大段的实验报告换成了一段咿咿呀呀的小黄文,然后让他拷走了。
3、乱码。关键信息不是正常字符,而是通过图片或者乱码来展示(通过渲染让乱码成为可阅读的正常字符)。
三月份爬虫是个什么概念呢?每年的三月份我们会迎接一次爬虫高峰期。最初我们百思不得其解。直到有一次,四月份的时候,我们删除了一个url,然后有个爬虫不断的爬取url,导致大量报错,测试开始找我们麻烦。我们只好特意为这个爬虫发布了一次站点,把删除的url又恢复回去了。但是当时我们的一个组员表示很不服,说,我们不能干掉爬虫,也就罢了,还要专门为它发布,这实在是太没面子了。于是出了个主意,说:url可以上,但是,绝对不给真实数据。于是我们就把一个静态文件发布上去了。报错停止了,爬虫没有停止,也就是说对方并不知道东西都是假的。这个事情给了我们一个很大的启示,也直接成了我们反爬虫技术的核心:变更。后来有个学生来申请实习。我们看了简历发现她爬过携程。后来面试的时候确认了下,果然她就是四月份害我们发布的那个家伙。不过因为是个妹子,技术也不错,后来就被我们招安了。现在已经快正式入职了。
1、十分低级的应届毕业生
开头我们提到的三月份爬虫,就是一个十分明显的例子。应届毕业生的爬虫通常简单粗暴,根本不管服务器压力,加上人数不可预测,很容易把站点弄挂。
顺便说下,通过爬携程来获取offer这条路已经行不通了。因为我们都知道,第一个说漂亮女人像花的人,是天才。而第二个。。。你们懂的吧?
2、十分低级的创业小公司
现在的创业公司越来越多,也不知道是被谁忽悠的然后大家创业了发现不知道干什么好,觉得大数据比较热,就开始做大数据。
分析程序全写差不多了,发现自己手头没有数据。
怎么办?写爬虫爬啊。于是就有了不计其数的小爬虫,出于公司生死存亡的考虑,不断爬取数据。
3、不小心写错了没人去停止的失控小爬虫
携程上的点评有的时候可能高达60%的访问量是爬虫。我们已经选择直接封锁了,它们依然孜孜不倦地爬取。
什么意思呢?就是说,他们根本爬不到任何数据,除了http code是200以外,一切都是不对的,可是爬虫依然不停止这个很可能就是一些托管在某些服务器上的小爬虫,已经无人认领了,依然在辛勤地工作着。