Проект представляет собой консольное приложение для асинхронного парсинга документации c сайта Python.org
с помощью библиотеки Scrapy
.
- Получение номера, названия и статуса каждого документа PEP
- Подсчет количества документов PEP в разном статусе, формирование сводной таблицы;
- Полученные данные выводятся в файлы .CSV с указанием даты и времени в названии.
Клонируйте репозиторий локально:
git clone [email protected]:Alexshifter/scrapy_parser_pep.git
Находясь в директории проекта разверните виртуальное окружение
python -m venv venv
Запустите виртуальное окружение
source venv/scripts/activate
Обновите pip
pip install --upgrade pip
Установите зависимости
pip install -r requirements.txt
Запуск приложения
scrapy crawl pep
Файлы с результатами парсинга доступны в папке results
:
cd results
Python 3.9.13, Scrapy 2.5.1