这几天写了一个,这是我关于反爬虫的一些总结

: 常见的反爬虫和应对方法 – Python Hacker – 知乎专栏

刚开始写爬虫用的是urllib2,后来知道了,惊为天人。

刚开始解析网页用的是re,后来知道了BeautifulSoup,解析页面不能再轻松。

再后来看别人的爬虫,知道了scrapy,被这个框架惊艳到了。

之后遇到了一些有验证码的网站,于是知道了PIL。但后来知道了opencv,pybrain。当在爬虫中用上人工神经网络识别出验证码,兴奋得守在爬虫旁边看他爬完全站。

再后来知道了threading,知道了celery。

不断的学习,不断的接触和知道更多的东西,爬虫与反爬虫的对抗会一直进行下去。