介绍

批量抓取公司招聘页面的爬虫程序。程序分为两部分，第一部分是抓取公司基本信息及主页，来源是IT橘子；第二部分是从公司主页开始抓取招聘页面。两个程序直接用文件来传递数据，可以换成数据库、redis等。

IT橘子爬虫

IT橘子的网站url有规律的，/company/id即为公司页面，直接遍历id。分析html源码来确定各项基本信息所在的tag，提取出来即可。

从主页开始宽度优先遍历，url或者名字里带有"招聘"，"加入我们"等字样的链接有更高的优先级。通过页面包含的关键字来对一个页面进行评估，例如含有"职位要求","工作经验"的页面会获得更高的权重。最后取权重最高的页面输出。