Финальный проект по курсу Otus MLOps

Тема: Классификация пользовательских обращений в техническую поддержку

Система технической поддержки крупных организаций сталкивается с множеством пользовательских запросов, которые варьируются по сложности, тематике и приоритету. Эти обращения часто неразмечены и содержат свободный текст, что затрудняет их автоматическую обработку и распределение между специалистами.

Описание данных

Данные представляют собой неразмеченные текстовые обращения, которые могут включать запросы на устранение неполадок, жалобы, предложения по улучшению, вопросы по использованию продуктов и др.

Проблема

Без предварительной разметки обращений обучить классификатор.

Objective

Разработать систему автоматической разметки и классификации обращений, которая позволит:

Улучшить роутинг обращений: автоматически назначать обращения на соответствующие отделы или специалистов, уменьшая время обработки.
Разметка обращений для последующей аналитики
Автоматическое расширение разметки: система должна автоматически адаптироваться к новым типам обращений, обучаясь на вновь поступающих данных.
Интегрировать ее в существующую систему

Бизнеc value

Повышение эффективности работы службы поддержки: уменьшение времени обработки запросов за счет автоматизации.
Снижение нагрузки на операторов: автоматическая классификация и маршрутизация запросов позволяет разгрузить операторов от рутинной работы.

Структура репо

data/: исходные данные
notebooks/: EDA + pipeline, который лежит в основе проекта
sсrips/: основные одиночные скрипты
- spark_pipeline/: скрипты для препроцессинга, разметки, переразметки и обучения модели на spark
- py_pipeline/: скрипты для препроцессинга, разметки, переразметки и обучения модели на python
- airflow_dags/: даги для Airflow
src/: исходный код сервиса Fast API
Dockerfile: докерфайл для сервиса
k8s/: манифесты для настройки работы сервиса в k8s
pyprojects.toml: зависимости

HLD

Основной пайплайн:

(п.1-3 оркестрируются в Airflow)

Препроцессинг данных с S3
Разметка данных
- (автоматически) Разметка по предобученным моделям
- (опционально) (полуавтоматически) Переобучение моделей разметки
Обучение классификатора, сохранение метрик и статтестов MLFlow
Обученная модель обернута в Fast API + Docker
По push в репо с изменением модели - github actions на пересборку контейнера
Собранный контейнер деплоится в k8s, где есть автомасштабирование
Продовые метрики отображаем в графане, стреляем алертами в тг

Main ML ETL

Удаление числовых значений и пунктуации
Лемматизация
Часть речи (POS) теггинг — выделение существительных
Выделение топиков: TF-IDF + NMF (non-negative matrix factorization)
Классификация: TF-IDF + логистическая регрессия

S3 buckets

s3a://customer-sup-tickets-raw/ - исходные данные + логи airflow

s3a://customer-sup-tickets-clean/ - оброаботанные данные; размеченные данные; скрипты для airflow, обученные модели

Артефакты проекта

ВМ для оркестрации через Airflow и версионирования экспериментов через MLFlow

Препроцессинг, леблинг и обучениюч через Airflow + DataProc

Метрики в MLFLow

K8s deployments

K8s pods

Чекаем работоспособность сервиса в кубере

Прометеус + графана для мониторинга

Алерт в тг боте при превышении рейта по классификации топика Theft/Dispute reporting

Итоги

Сделано:

ETL на Spark с использованием DataProc в Yandex Cloud
Оркестрация через DAG'и Airflow
Метрики и статистические тесты в MLFlow
Сервис на FastAPI в Docker-контейнере
Деплой в Kubernetes
Мониторинг через Prometheus и Grafana
Алертинг в Telegram
CI/CD через GitHub Actions

Что можно улучшить:

Перенос кластера из Kind в Yandex Cloud Kubernetes
Автоматический анализ тем через GPT-4o или self-hosted LLM
Интеграция Kafka для увеличения пропускной способности
Подбор альтернативных ML-алгоритмов, эмбеддингов, и подходов для выделения тем

Name		Name	Last commit message	Last commit date
Latest commit History 16 Commits
.github/workflows		.github/workflows
data		data
k8s		k8s
notebooks		notebooks
scripts		scripts
src		src
static		static
.env.example		.env.example
.gitignore		.gitignore
Dockerfile		Dockerfile
README.md		README.md
pyproject.toml		pyproject.toml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Финальный проект по курсу Otus MLOps

Тема: Классификация пользовательских обращений в техническую поддержку

Описание данных

Проблема

Objective

Бизнеc value

Структура репо

HLD

Main ML ETL

S3 buckets

Артефакты проекта

ВМ для оркестрации через Airflow и версионирования экспериментов через MLFlow

Препроцессинг, леблинг и обучениюч через Airflow + DataProc

Метрики в MLFLow

K8s deployments

K8s pods

Чекаем работоспособность сервиса в кубере

Прометеус + графана для мониторинга

Алерт в тг боте при превышении рейта по классификации топика Theft/Dispute reporting

Итоги

Сделано:

Что можно улучшить:

About

Releases

Packages

Languages

mckbrchill/tech-support-classifier-otus

Folders and files

Latest commit

History

Repository files navigation

Финальный проект по курсу Otus MLOps

Тема: Классификация пользовательских обращений в техническую поддержку

Описание данных

Проблема

Objective

Бизнеc value

Структура репо

HLD

Main ML ETL

S3 buckets

Артефакты проекта

ВМ для оркестрации через Airflow и версионирования экспериментов через MLFlow

Препроцессинг, леблинг и обучениюч через Airflow + DataProc

Метрики в MLFLow

K8s deployments

K8s pods

Чекаем работоспособность сервиса в кубере

Прометеус + графана для мониторинга

Алерт в тг боте при превышении рейта по классификации топика Theft/Dispute reporting

Итоги

Сделано:

Что можно улучшить:

About

Resources

Stars

Watchers

Forks

Releases

Packages 0

Languages

Packages