拉勾爬取
爬取 Lagou工作数据,得到最新工作信息
注意,以下说的python3实际上是在我本人的电脑上的运行版本,如果你可以确认你的电脑上的 版本是Python3的话,你也可以使用 python 的方法来运行
查看Python 版本的方法 python -V
- 安装第三方库
python3 -m pip install -r requirements.txt
运行spider下py文件,信息存储于Excel中. ( cd ***/spider/)
- 运行 m_lagou_spider.py文件,来获取工作数据并生成Excel文件
- python3 m_lagou_spider.py
- 运行lagou_company_spider.py文件,获取公司详细信息
- python3 lagou_company_spider.py
- 运行jobdetail_spider.py文件,获取职位详细信息
- python3 jobdetail_spider.py
- 手机的拉钩网站进行搜索爬虫('https://m.lagou.com/search.json?city=……)
- 控制爬取频率,速度相对较慢,爬取一条信息休眠2s
- 爬取时更改UserAgent