前阵子在自学Python,可是平常用不到的话语法什么的就好容易忘啊,一个劲的print又没多大成就感,于是了解了requests、bs4、openpyxl、Scrapy…这些python库,对拉勾网上面的职位信息进行爬取。


爬虫系统

这是部分职位…..

这是爬下来的数据…

这是生成的Excel…

前方是数据分析报告,多图预警!!


分析报告



职位印象

对于每一个职位而言,如何能迅速了解其背景呢?

这就是在V1.3版本中加入的 职位印象 功能了…

简单来说呢,就是在抓取每一个职位职位数据,对其进行一系列的分析,分词、统计词频,生成排名前20的热度词…

这是拉勾网的职位要求…

下面以[数据挖掘]岗位为例进行试验…

[这是抓取的所有详情页数据]

[这是分析结果]

[职位印象]

深度学习:

可以看到,“深度学习”、“机器学习”、“算法”是最热门词汇,而Deep Learning常常使用的语言为C++和Python,应用领域最多的是计算机视觉。常被提及的是卷积神经网络(CNN),框架方面则为Caffe(虽说框架用什么无所谓,但还是有点好奇2017年了为什么不该是TensorFlow).

自然语言处理:

对于NLP岗位,“算法”和“机器学习”依然是最热门词汇,编程语言则提及最多的是Python和C++。

数据挖掘:

在综合了所有“数据挖掘”岗位招聘要求数据之后,经过分析,“数据挖掘”、“机器学习”、“算法”是常被提及的热度词。数据挖掘岗位对编程语言的要求则为Python和Java。毕竟有Hadoop/Spark等成熟的生态体系。

人工智能:

推荐系统:

作为算法岗,数据、算法、数据挖掘、个性化理所应当是热门词汇。

机器学习:

严格意义上来说,NLP/Computer Vision/Data Mining/AI 等都是Machine Learning的应用领域,但此处还是单独将该职位拆分出来分析。

Android:

移动开发则更偏向经验、架构、项目、设计模式。

其他的分析就不一一赘述了,分析过程类似,详情见github。 ^_^
评论中有小伙伴要源代码的,在此分享出来,没有系统学习过python,代码组织什么的可能不太好,了解下实现流程就好啦。


相关资料

  • 本文分析报告下载:
  • Github Repository:
  • 如果想学习爬虫、数据分析相关的东西,可以参考下我的另一篇文章:
  • 知乎Live:
  • 颜值打分
  • 机器鉴黄
  • 人脸比对