你见过哪些令你瞠目结舌的爬虫技巧?
这几天写了一个,这是我关于反爬虫的一些总结
: 常见的反爬虫和应对方法 – Python Hacker – 知乎专栏
刚开始写爬虫用的是urllib2,后来知道了,惊为天人。
刚开始解析网页用的是re,后来知道了BeautifulSoup,解析页面不能再轻松。
再后来看别人的爬虫,知道了scrapy,被这个框架惊艳到了。
之后遇到了一些有验证码的网站,于是知道了PIL。但后来知道了opencv,pybrain。当在爬虫中用上人工神经网络识别出验证码,兴奋得守在爬虫旁边看他爬完全站。
再后来知道了threading,知道了celery。
不断的学习,不断的接触和知道更多的东西,爬虫与反爬虫的对抗会一直进行下去。