批量抓取公司招聘页面的爬虫程序。程序分为两部分,第一部分是抓取公司基本信息及主页,来源是IT橘子;第二部分是从公司主页开始抓取招聘页面。 两个程序直接用文件来传递数据,可以换成数据库、redis等。
IT橘子的网站url有规律的,/company/id即为公司页面,直接遍历id。分析html源码来确定各项基本信息所在的tag,提取出来即可。
从主页开始宽度优先遍历,url或者名字里带有"招聘","加入我们"等字样的链接有更高的优先级。 通过页面包含的关键字来对一个页面进行评估,例如含有"职位要求","工作经验"的页面会获得更高的权重。最后取权重最高的页面输出。