Целью данного исследования является анализ и моделирование оттока клиентов фитнес-центра.
План:
Итог:
Была дана информация о клиентах фитнес-центра и их оттоке. В данных не было пропусков и дубликатов, а так же не нашлось аномалий.
Клиенты
- Наши клиенты — это примерно в равной пропорции сотрудники компаний-партнеров клуба, и просто люди в возрасте 25-35 лет, которые живут или работают поблизости. Большинство из них только пришли к нам, хотят попробовать, и берут абонемент на 1 месяц. Среднее время жизни клиента — 4-5 месяцев. Клиенты, которые уходят, делают это обычно в течении первых 2 месяцев. До ухода у этих клиентов снижена активность в зале — они посещают его в среднем 1 раз в неделю, в то время как остальные 2 раза в неделю.
Моделирование оттока
- Для моделирования оттока лучше всего подходит градиентный бустинг. Среди обученных моделей он показал себя лучше всех
с качеством ROC AUC ~0.98. Обе имплементации Scikit-learn и LightGBM дали примерно один и тот же результат, только
модель LightGBM обучается примерно в 10 раз быстрее. При подборе гиперпараметров, качество меняется уже в 3 знаке
после запятой, то есть в долях процента, так что, скорее всего, это предельная точность для этой задачи, и нет смысла
проводить тщательный отбор гиперпараметров с инструментами по типу Optuna.
Самыми главными признаками для моделей являются частота посещения зала в текущем месяце и общая, лайфтайм и возраст. Остальные признаки почти не меняют результаты предсказания.
Кластеризация
Кластеризация выявила 5 основных кластеров клиентов:
-
В 0-м кластере клиенты, которые живут далеко и склоны к уходу.
-
У 1-го кластера низкий уровень оттока клиентов, но не самая высокая средняя длительность абонемента. Возможно, это клиенты, которые только пришли.
-
У 2-го кластера самый высокий отток пользователей и самая низкая средняя длительность абонемента.
-
В 3-м кластере у почти всех клиентов абонемент на год, а также самый низкий отток пользователей. Это кластер с самыми долгосрочными клиентами.
-
В 4-м кластере у всех клиентов отсутствует телефон.
Самыми надежными получаются кластеры 3 и 1, однако клиенты 1 кластера могут постепенно перейти во 2-й кластер.
Самым ненадежными являются клиенты 2-го и 0-го кластера.
Рекомендации
-
Удержать клиентов, которые далеко живут, весьма непросто. Если есть возможность, можно открыть дополнительные филиалы в разных районах города.
-
Для клиентов, которые только пришли (клиенты 1-го кластера), можно давать различные скидки и предложения, чтобы они не переставали заниматься, и не переходили во второй 2 кластер.
-
Для клиентов 2-го кластера можно подойти более индивидуально и узнать, почему именно они уходят: нет времени, неудобный график, слишком далеко, или по другим причинам. В зависимости от их причин, можно давать более индивидуальные предложения.
-
Клиентам 3-го кластера можно давать различные поощрения за лояльность к клубу. Это повысит их вовлеченность, и поможет увеличить шансы, что они порекомендуют наш фитнес-центр другим людям.
Структура данных:
Информация о клиентах фитнес-центра и их оттоке хранится в файле gym_churn.csv
:
-
gender
— пол -
Near_Location
— проживание или работа в районе, где находится фитнес-центр -
Partner
— сотрудник компании-партнера клуба -
Promo_friends
— был приглашен в рамках акции "приведи друга" -
Phone
— указан мобильный телефон -
Contract_period
— длительность текущего абонемента в месяцах -
Group_visits
— факт посещения групповых занятий -
Age
— возраст -
Avg_additional_charges_total
— суммарные затраты на остальные услуги фитнес-центра: кофе, спорттовары и т. п. -
Month_to_end_contract
— количество месяцев до окончания текущего абонемента -
Lifetime
— количество месяцев с первой записи в фитнес-центр -
Avg_class_frequency_total
— средняя частота посещений в неделю за все время с момента первой записи -
Avg_class_frequency_current_month
— средняя частота посещений в неделю за предыдущий месяц -
Churn
— факт ухода клиента