В этом проекте основное внимание уделяется изучению алгоритмов AdaBoost и Gradient Boosting для анализа данных о грибах. Мы используем поиск по сетке (GridSearch) для оптимизации моделей, но основная цель — не создать идеальную предиктивную модель, а предоставить ценные инсайты о характеристиках грибов, которые определяют их съедобность.
Цель этого проекта заключается в углублённом понимании методов бустинга и применения поиска по сетке (GridSearchCV) для нахождения оптимальных гиперпараметров. Мы стремимся выявить ключевые характеристики грибов из предоставленных данных.
- Описание данных
- Исследование данных (EDA)
- Методы бустинга
- GridSearchCV и кросс-валидация
- Оценка модели
- Заключение
Документ содержит описание 23 различных признаков грибов, которые влияют на их классификацию как съедобных или ядовитых. Все данные получены из семейства шампиньоновых и имеют богатую информацию об атрибутах, таких как форма и цвет шляпки, запах, форма ножки и другие показатели.
- cap-shape: форма шляпки (колокольчатая, коническая и т.д.)
- cap-surface: поверхность шляпки (волокнистая, бороздчатая и т.д.)
- odor: запах гриба (миндальный, анисовый и т.д.)
- ... и многие другие.
EDA (Exploratory Data Analysis) проводится для выявления закономерностей в данных и для лучшего понимания того, как различные признаки связаны с классификацией грибов. Важность признаков всесторонне исследуется на всех этапах анализа.
Эти методы используются для обучения на данных, и исследуются их возможности в контексте увеличения точности модели. Особое внимание уделяется тому, как добавление слабых обучающихся влияет на изменчивость значимости признаков.
Используя GridSearchCV, мы проводим автоматизированный подбор гиперпараметров для обеих моделей, добиваясь наилучших результатов. В проекте реализована многократная кросс-валидация для повышения надежности оценок.
Оценка моделей проводится с акцентом на точность и полноту при определении ключевых характеристик, определяющих съедобность грибов.
Проект позволяет углубиться в важные аспекты алгоритмов бустинга и применения методов поиска по сетке. На выходе мы получаем не только модель, но и общее руководство по важным признакам грибов.