Skip to content

stas224/RLTHack-2023

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

5 Commits
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

RLT.Hack 2023

Наша команда "Симпы МИСИС" стала финалистом данного хакатона, заняв 4 место в общем списке

  • Тема хакатона: Создание системы интеллектуального поиска потенциальных участников закупок на открытом рынке
  • В своей команде я отвечал за парсинг данных для модели машинного обучения
  • В общей сложности получилось достать более 100 000 наименований товаров с сопутствующими им характеристиками, после чистки данных осталось около 35 тысяч строк
  • В данном репозитории представлена только часть проекта, посвященная парсингу данных с сайтов поставщиков

Используемый стэк технологий:

  • Python==3.11
  • bs4==0.0.1
  • requests==2.31.0
  • selenium==4.13.0
  • selenium-stealth==1.0.6
  • fake-useragent==1.3.0
  • pandas==2.1.1

Краткое описание

  • Были выбраны такие сайты, как pulscen.ru, b2b.trade.ru, supl.biz, spark-interfax.ru, b2b-center.ru и rusprofile.ru
  • Для первых трех сайтов запускается скрипт из main.py, который собирает такие фичи как название товара, поставщик, регион, описание товара и его цена, после чего сопостовляется ИНН поставщиков с сайта spark-interfax.ru
  • в скрипте additional_parsers/parser_b2bcenter.py собирается информация с b2b-center только о поставщиках и их регионах
  • В скрипте additional_parsers/parser_rusprofile.py собирается информация с rusprofile о надежности поставщика и отзывы о нем

Releases

No releases published

Packages

No packages published

Languages