Q’Python

PySpider 设置 response.error 抛出异常,应对反爬虫

因为使用的代理都是从网上抓取的免费代理,很有可能已经被一些网站封了,导致在或许一些数据的时候出现问题。想了很多方案,但都不是很理想,最后在 https://segmentfault.com/q/1010000007375184/a-1020000007386513 找到作者的解答,这个方法不错。具体操作如下:

在需要判断的方法里放入如下代码:

基本就是这样,就可以抛出异常并让 PySpider 进行重试了。

也想过通过之前的 IPProxy_Pool + PySpider + Squid 搭建自动更新代理  的方式,在获取代理池的时候也判断一下,可是,我懒啊。哈哈哈哈。

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.