Skip to content

Изучение алгоритмов AdaBoost и Gradient Boosting для анализа данных

Notifications You must be signed in to change notification settings

Komarov-Dmitry/Boosted-Trees

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

2 Commits
 
 
 
 
 
 
 
 
 
 

Repository files navigation

Проект "Идём за грибами": Исследование бустинга и GridSearch

Описание проекта

В этом проекте основное внимание уделяется изучению алгоритмов AdaBoost и Gradient Boosting для анализа данных о грибах. Мы используем поиск по сетке (GridSearch) для оптимизации моделей, но основная цель — не создать идеальную предиктивную модель, а предоставить ценные инсайты о характеристиках грибов, которые определяют их съедобность.

Цель проекта

Цель этого проекта заключается в углублённом понимании методов бустинга и применения поиска по сетке (GridSearchCV) для нахождения оптимальных гиперпараметров. Мы стремимся выявить ключевые характеристики грибов из предоставленных данных.

Содержание

  1. Описание данных
  2. Исследование данных (EDA)
  3. Методы бустинга
  4. GridSearchCV и кросс-валидация
  5. Оценка модели
  6. Заключение

Описание данных

Документ содержит описание 23 различных признаков грибов, которые влияют на их классификацию как съедобных или ядовитых. Все данные получены из семейства шампиньоновых и имеют богатую информацию об атрибутах, таких как форма и цвет шляпки, запах, форма ножки и другие показатели.

Перечень признаков:

  • cap-shape: форма шляпки (колокольчатая, коническая и т.д.)
  • cap-surface: поверхность шляпки (волокнистая, бороздчатая и т.д.)
  • odor: запах гриба (миндальный, анисовый и т.д.)
  • ... и многие другие.

Исследование данных (EDA)

EDA (Exploratory Data Analysis) проводится для выявления закономерностей в данных и для лучшего понимания того, как различные признаки связаны с классификацией грибов. Важность признаков всесторонне исследуется на всех этапах анализа.

Методы бустинга

AdaBoost и Gradient Boosting

Эти методы используются для обучения на данных, и исследуются их возможности в контексте увеличения точности модели. Особое внимание уделяется тому, как добавление слабых обучающихся влияет на изменчивость значимости признаков.

GridSearchCV и кросс-валидация

Используя GridSearchCV, мы проводим автоматизированный подбор гиперпараметров для обеих моделей, добиваясь наилучших результатов. В проекте реализована многократная кросс-валидация для повышения надежности оценок.

Оценка модели

Оценка моделей проводится с акцентом на точность и полноту при определении ключевых характеристик, определяющих съедобность грибов.

Заключение

Проект позволяет углубиться в важные аспекты алгоритмов бустинга и применения методов поиска по сетке. На выходе мы получаем не только модель, но и общее руководство по важным признакам грибов.

About

Изучение алгоритмов AdaBoost и Gradient Boosting для анализа данных

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published