calorie_burnt_prediction.py

# -*- coding: utf-8 -*-
"""calorie burnt prediction.ipynb

Automatically generated by Colab.

Original file is located at
    https://colab.research.google.com/drive/1NEM7bC21J1ab5esZjGGTdINN5-LA68qP

importing dependencies
"""

import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
import xgboost as xgb
from sklearn.model_selection import train_test_split
from sklearn import metrics

"""data collection and processing"""

#import the calories dataset to pandas dataframes
calories = pd.read_csv('/content/calories.csv')

#print first  rows of dataframes
calories.head()

#import excercise dataset to pandas dataframe
excercise_data = pd.read_csv('/content/exercise.csv')

#checking first 5 rows of excercise_data
excercise_data.head()

"""combining the two dataframes"""

calories_data = pd.concat([excercise_data, calories['Calories']], axis=1)

calories_data.head()

#checking the num of rows n cols
calories_data.shape

#gettin more info abt the data
calories_data.info()

#checkin for null values
calories_data.isnull().sum()

"""data analysis"""

#get some stats measures abt the data
calories_data.describe()

"""Data visualization"""

sns.set()

#plotting gender column in count plot
sns.countplot(calories_data['Gender'])

#findin the distribution of age cols
sns.distplot(calories_data['Age'])

#findin the distribution of height cols
sns.distplot(calories_data['Height'])

#findin the distribution of weight cols
sns.distplot(calories_data['Weight'])

#findin the distribution of heart rate cols
sns.distplot(calories_data['Heart_Rate'])

"""Finding the correlation in dataset


postive correlation
negative correlation
"""

correlation = calories_data.corr(numeric_only=True)

#constructing to understand the correlation
plt.figure(figsize=(10,10))
sns.heatmap(correlation, cbar=True, square=True, fmt='.1f', annot=True, annot_kws={'size':8}, cmap='Blues')

"""converting the txt data to numerical values"""

calories_data.replace({"Gender":{'male':0,'female':1}}, inplace=True)

calories_data.head()

"""separating features and target"""

X = calories_data.drop(columns=['User_ID','Calories'],axis=1)
Y = calories_data['Calories']

print(X)

print(Y)

"""splitting the data into training and test data"""

X_train, X_test, Y_train, Y_test = train_test_split(X,Y, test_size=0.2, random_state=2)

print(X.shape, X_train.shape, X_test.shape)

"""model training


 XGBoost regressor
"""

#loading model
model = xgb.XGBRegressor()

#training the model with X_train
model.fit(X_train, Y_train)

"""Evaluation

Prediction on Test Data
"""

test_data_prediction = model.predict(X_test)

print(test_data_prediction)

"""Mean Absolute Error"""

mae = metrics.mean_absolute_error(Y_test, test_data_prediction)

print("Mean Absolute Error = ", mae)