Skip to content

noanti/job_spider

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

介绍

批量抓取公司招聘页面的爬虫程序。程序分为两部分,第一部分是抓取公司基本信息及主页,来源是IT橘子;第二部分是从公司主页开始抓取招聘页面。 两个程序直接用文件来传递数据,可以换成数据库、redis等。

IT橘子爬虫

IT橘子的网站url有规律的,/company/id即为公司页面,直接遍历id。分析html源码来确定各项基本信息所在的tag,提取出来即可。

招聘页面爬虫

从主页开始宽度优先遍历,url或者名字里带有"招聘","加入我们"等字样的链接有更高的优先级。 通过页面包含的关键字来对一个页面进行评估,例如含有"职位要求","工作经验"的页面会获得更高的权重。最后取权重最高的页面输出。

About

招聘信息爬虫

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Languages