Наша команда "Симпы МИСИС" стала финалистом данного хакатона, заняв 4 место в общем списке
- Тема хакатона: Создание системы интеллектуального поиска потенциальных участников закупок на открытом рынке
- В своей команде я отвечал за парсинг данных для модели машинного обучения
- В общей сложности получилось достать более 100 000 наименований товаров с сопутствующими им характеристиками, после чистки данных осталось около 35 тысяч строк
- В данном репозитории представлена только часть проекта, посвященная парсингу данных с сайтов поставщиков
- Python==3.11
- bs4==0.0.1
- requests==2.31.0
- selenium==4.13.0
- selenium-stealth==1.0.6
- fake-useragent==1.3.0
- pandas==2.1.1
- Были выбраны такие сайты, как pulscen.ru, b2b.trade.ru, supl.biz, spark-interfax.ru, b2b-center.ru и rusprofile.ru
- Для первых трех сайтов запускается скрипт из
main.py
, который собирает такие фичи как название товара, поставщик, регион, описание товара и его цена, после чего сопостовляется ИНН поставщиков с сайта spark-interfax.ru - в скрипте
additional_parsers/parser_b2bcenter.py
собирается информация с b2b-center только о поставщиках и их регионах - В скрипте
additional_parsers/parser_rusprofile.py
собирается информация с rusprofile о надежности поставщика и отзывы о нем