Este projeto visa aplicar técnicas de engenharia de atributos e ajustar os parâmetros do algoritmo de Regressão Logística para melhorar os resultados de classificação do problema de previsão de churn. (https://www.kaggle.com/datasets/undersc0re/predict-the-churn-risk-rate).
Além disso, foi aplicado uma técnica de Auto-ML nos dados para comparar os resultados com os obtidos pelo modelo de Regressão Logística melhorado com hiperparâmetros.
Dagshub e MLflow demonstraram ser ferramentas poderosas para gerenciar, manter e visualizar os experimentos. Como pode ser observado, vários experimentos foram executados, onde é possível visualizar cada hiperparâmetro utilizado, bem como a acurácia. O melhor modelo de Regressão Logística aperfeiçoado obteve 89% de acurácia.
Além disso, é possível visualizar outras informações de forma gráfica dos modelos.
Também é possível utilizar o modelo para realizar previsões, basta utilizar o MLflow run ID:
Modelo de Regressão Logística aperfeiçoado X TPOT:
● Vale destacar que a acurácia obtida com o TPOT foi de aproximadamente 94%, o que é superior à acurácia do modelo aperfeiçoado de 89%. Isso sugere que o TPOT foi capaz de encontrar um pipeline de aprendizado de máquina que produz um melhor desempenho no seu conjunto de teste.
● Entretanto, apesar de seus pontos fortes, o TPOT pode não ser a melhor solução em todos os casos. Ele pode demorar muito para executar, especialmente em grandes conjuntos de dados ou com um grande número de gerações.
● Ainda assim, o TPOT é uma ferramenta poderosa que pode economizar muito tempo e esforço, pois ele automatiza o que normalmente seria um processo de ajuste de parâmetros manual e trabalhoso.