análisis_encuesta_ingresos_caba_23.py

# -*- coding: utf-8 -*-
"""Análisis encuesta ingresos CABA 23

Automatically generated by Colab.

Original file is located at
    https://colab.research.google.com/drive/1cp6rvAGvsv2lnD0wnPMoL99ZaHoEhgxD
"""

#IMPORTAR LIBRERIAS
import numpy as np
import pandas as pd
from google.colab import drive
import matplotlib.pyplot as plt

#CONECTAR CON DRIVE
drive.mount('/content/drive')

# Especificar las rutas de los archivos de texto
file_paths = [
    '/content/drive/MyDrive/UNIPE/Elementos de Programación/Otros ejercicios/ETOI 23 (1)/etoi231_usu_ind.txt',
    '/content/drive/MyDrive/UNIPE/Elementos de Programación/Otros ejercicios/ETOI 23 (1)/etoi232_usu_ind.txt',
    '/content/drive/MyDrive/UNIPE/Elementos de Programación/Otros ejercicios/ETOI 23 (1)/etoi233_usu_ind.txt',
    '/content/drive/MyDrive/UNIPE/Elementos de Programación/Otros ejercicios/ETOI 23 (1)/etoi234_usu_ind.txt',
]

# Leer los archivos de texto en DataFrames individuales
dataframes = [pd.read_csv(file_path, sep=';') for file_path in file_paths]

# Concatena los DataFrames (por ejemplo, concatenándolos)
combined_df = pd.concat(dataframes, ignore_index=True)

print("Tipo de df:", type(combined_df)) #CONFIRMA TIPO DE DATO
df = combined_df #RENOMBRA EL DATA FRAME
df.columns  #ACCEDE A MOSTRAR LAS COLUMNAS

#TOTAL DE CASOS
total_casos = df.shape[0]
print(f"Cantidad total de casos Encuesta Trimestral de Ocupación e Ingresos (ETOI): {total_casos}")

edad_promedio = df['edad'].mean()
print(f"Edad promedio: {edad_promedio:.2f} años")

"""# **ZONA**"""

identificador_zona=sorted(df['zona'].unique()) #TRAE TODAS LAS RESPUESTAS
print(identificador_zona)

#VALORES NUEVOS
categorias_zona=['Norte','Centro','Sur'] #NUEVAS CATEGORÍAS
print(categorias_zona)

#REEMPLAZAR VALORES
df['zona'].replace(identificador_zona, categorias_zona ,inplace=True)
#CONTAR VALORES POR CATEGORIA
df['zona'].value_counts()

"""# **NIVEL EDUCATIVO**"""

#RENOMBRAR LA COLUMNA
df.rename(columns={'nivel_2':'nivel educativo'},inplace=True)

#VALORES ACTUALES
identificador_ne=sorted(df['nivel educativo'].unique())
print(identificador_ne)

#VALORES NUEVOS
categorias_nivel_educativo=['Asisten / asistieron a otras escuelas especiales','Hasta secundario incompleto','Secundario completo','Superior incompleto','Superior completo','ns/nc'] #nombres de las categorías elegidas
print(categorias_nivel_educativo)

#REEMPLAZAR VALORES
df['nivel educativo'].replace(identificador_ne, categorias_nivel_educativo ,inplace=True)
#CONTAR VALORES POR CATEGORIA
df['nivel educativo'].value_counts()

#DEFINE CATEGORIAS ELEGIDAS
educacion_filtrada = ['Hasta secundario incompleto','Secundario completo','Superior incompleto','Superior completo']

#FILTRA EL DF PARA TARER LAS CATEGORIAS ELEGIDAS
df_filtrado_educacion = df[df['nivel educativo'].isin(educacion_filtrada)]

colors = ("#6495ED", "#7FFFD4", "#5F9EA0", "#008B8B", "#2F4F4F")
plt.figure(figsize=(8, 4))
df_filtrado_educacion['nivel educativo'].value_counts().plot.pie(colors = colors, autopct='%1.1f%%', startangle=180)
plt.title('Máximo Nivel de Educación')
plt.ylabel('')
plt.show()

"""# **EDUCACIÓN POR ZONA**"""

colors_c = ("#D8BFD8", "#B0C4DE","#EEE8AA")
educacion_por_zona = df_filtrado_educacion.groupby(['nivel educativo','zona']).size().unstack(fill_value=0)

educacion_por_zona_pct = educacion_por_zona.div(educacion_por_zona.sum(axis=1), axis=0) * 100
print(educacion_por_zona_pct)

educacion_por_zona_pct.plot(kind='barh', stacked=True, color=colors_c)

#GRAFICO
plt.title('Máximo Nivel Educativo por Zonas')
plt.xlabel('Población en %')
plt.ylabel('Máximo nivel educativo')
plt.legend(title='Comunas', bbox_to_anchor=(1.05, 1))
plt.grid (True, linestyle='--', alpha=0.3)
plt.show()

"""## **GÉNERO**"""

#RENOMBRAR LA COLUMNA
df.rename(columns={'sexo':'Género'},inplace=True)
identificador_g=sorted(df['Género'].unique())

categorias_genero =['Hombre','Mujer'] #VALORES NUEVOS

#REEMPLAZO DE VALORES
df['Género'].replace(identificador_g, categorias_genero, inplace=True)
print(df['Género'].value_counts())

"""## **CONDICION DE ACTIVIDAD**"""

#RENOMBRAR
df.rename(columns={'estado':'estado de ocupación'},inplace=True)

#VALORES ACTUALES
identificador_cond_act=sorted(df['estado de ocupación'].unique())
print(identificador_cond_act)

#VALORES NUEVOS
categorias_estado_ocupacion =['Ocupado ','Desocupado','Inactivo']
df['estado de ocupación'].replace(identificador_cond_act, categorias_estado_ocupacion, inplace=True)

detalle_ocupacion=(df['estado de ocupación'].value_counts())
detalle_ocupacion.plot.pie(colors=colors, autopct='%1.1f%%', startangle=120)
plt.title('Estado de ocupación')
plt.ylabel('')  # Eliminar la etiqueta del eje y
plt.show()

"""*POR* *ZONA*"""

estado_categorias = df['estado de ocupación'].replace(identificador_cond_act, categorias_estado_ocupacion, inplace=True) #REEMPLAZO DE VALORES

estado_filtradas_zona = df.groupby(['estado de ocupación','zona']).size().unstack()
colors_c = ("#D8BFD8", "#B0C4DE","#EEE8AA")
estado_filtradas_zona.plot(color = colors_c, kind='barh', stacked=True)
plt.title('Estado de ocupación por zonas')
plt.xlabel('Población')
plt.ylabel('Estado de ocupación')
plt.legend(title='Zonas', bbox_to_anchor=(1.05, 1))
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

"""*POR GENERO*"""

estado_filtradas_genero = df.groupby(['estado de ocupación','Género']).size().unstack()
colors_c = ("#D8BFD8", "#B0C4DE","#EEE8AA")
estado_filtradas_genero.plot(color = colors, kind='barh', stacked=True)
plt.title('Estado de ocupación según el género')
plt.xlabel('Población')
plt.ylabel('Estado de ocupación')
plt.legend(title='Género', bbox_to_anchor=(1.05, 1))
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

"""*POR NIVEL EDUCATIVO*"""

df_filtrado_ne_estado = df[ df['estado de ocupación'].isin(categorias_estado_ocupacion) & df_filtrado_educacion['nivel educativo'].isin(categorias_nivel_educativo)]
ocupacion_por_educacion = df_filtrado_ne_estado.groupby(['estado de ocupación', 'nivel educativo']).size().unstack(fill_value=0)
ocupacion_por_educacion.plot(kind='barh', stacked=True, color = colors)
plt.title('Estado de ocupación según el Nivel educativo')
plt.xlabel('Población por nivel educativo')
plt.ylabel('Estado de ocupación')
plt.legend(title='Nivel Educativo')
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

"""# **LA SEMANA PASADA TRABAJO?**"""

df.rename(columns={'t1':'¿la semana pasada trabajo?'},inplace=True) #RENOMBRAR
identificador_sem_pas=sorted(df['¿la semana pasada trabajo?'].unique()) #VALORES ACTUALES
print(identificador_sem_pas)

categorias_trabajo_semana_pasada =['No corresponde','Si','No'] #VALORES NUEVOS
print(categorias_trabajo_semana_pasada )

situación_laboral = df['¿la semana pasada trabajo?'].replace(identificador_sem_pas, categorias_trabajo_semana_pasada, inplace=True) #REEMPLAZO DE VALORES

categorias_filtradas = ['Si', 'No']
situacion_laboral_filtrado = df[df['¿la semana pasada trabajo?'].isin(categorias_filtradas)]

situacion_laboral_filtrado_contado = situacion_laboral_filtrado.groupby(['¿la semana pasada trabajo?', 'Género']).size().unstack().fillna(0)

situacion_laboral_filtrado_contado.plot(color = colors, kind='bar', stacked=True) #GRAFICAR
plt.title('Personas que trabajaron la semana pasada')
plt.xlabel('Situación')
plt.ylabel('Cantidad de personas')
plt.grid (True, linestyle='--', alpha=0.5)
plt.xticks(rotation=360)
plt.show()

"""**EN BÚSQUEDA LABORAL**"""

#RENOMBRAR
df.rename(columns={'t9':'búsqueda laboral'},inplace=True)

#VALORES ACTUALES
identificador_busqueda=sorted(df['búsqueda laboral'].unique())
print(identificador_busqueda)

#VALORES NUEVOS
categorias_busqueda_laboral =['No corresponde','Si','No']
print(categorias_busqueda_laboral )

busqueda_por_sexo = df['búsqueda laboral'].replace(identificador_busqueda, categorias_busqueda_laboral, inplace=True) #REEMPLAZO DE VALORES
categorias_filtradas_sx = ['Si', 'No']
busqueda_laboral_filtrado = df[df['búsqueda laboral'].isin(categorias_filtradas_sx)]
busqueda_laboral_filtrado_contado = busqueda_laboral_filtrado.groupby(['búsqueda laboral', 'zona']).size().unstack()

#GRAFICA
busqueda_laboral_filtrado_contado.plot(color = colors_c,kind='bar', stacked=True)

plt.title('Búsqueda de trabajo en los últimos 30 días por zona')
plt.xlabel('Situación')
plt.ylabel('Cantidad de personas')
plt.legend(title='Zona')
plt.grid (True, linestyle='--', alpha=0.5)
plt.xticks(rotation=360)
plt.show()

busqueda_laboral_filtrado_contado_genero = busqueda_laboral_filtrado.groupby(['búsqueda laboral', 'Género']).size().unstack()
busqueda_laboral_filtrado_contado_genero.plot(color = colors,kind='bar', stacked=True)

plt.title('Búsqueda de trabajo en los últimos 30 días por género')
plt.xlabel('Situación')
plt.ylabel('Cantidad de personas')
plt.legend(title='Género')
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

"""# **TIPO DE OCUPACION**"""

df.rename(columns={'categori':'tipo de ocupación'},inplace=True)#RENOMBRAR

#VALORES ACTUALES
identificador_ocupacion=sorted(df['tipo de ocupación'].unique())
print(identificador_ocupacion)

#VALORES NUEVOS
categorias_tipo_ocupacion =['No corresponde','Empleador','Cuentapropista','Asalariado', 'Trabajador familiar']
print(categorias_tipo_ocupacion)

df['tipo de ocupación'].replace(identificador_ocupacion, categorias_tipo_ocupacion, inplace=True) #REEMPLAZO DE VALORES

categorias_filtradas_ocupacion = ['Empleador', 'Cuentapropista', 'Asalariado', 'Trabajador familiar']
ocupaciones_filtradas = df[df['tipo de ocupación'].isin(categorias_filtradas_ocupacion)]

ocupaciones_filtradas_sexo = ocupaciones_filtradas.groupby(['tipo de ocupación', 'Género']).size().unstack()

ocupaciones_filtradas_sexo.plot(color = colors, kind='barh', stacked=True)
plt.title('Tipo de ocupación según el género')
plt.xlabel('Tipo de ocupación')
plt.ylabel('Cantidad de personas')
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

ocupaciones_filtradas_zona = ocupaciones_filtradas.groupby(['tipo de ocupación', 'nivel educativo']).size().unstack()
ocupaciones_filtradas_zona.plot(color = colors, kind='barh', stacked=True,figsize=(8,6))
plt.title('Tipo de ocupación según el nivel educativo')
plt.xlabel('Tipo de ocupación')
plt.xlabel('Cantidad de personas')
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.legend(title='Nivel Educativo')
plt.show()

"""**PARA DESOCUPADOS**

*Tiempo de búsqueda*
"""

df.rename(columns={'t15':'tiempo de búsqueda'},inplace=True)#RENOMBRAR

#VALORES ACTUALES
identificador_tiempo_busq=sorted(df['tiempo de búsqueda'].unique())
print(identificador_tiempo_busq)

#VALORES NUEVOS
categorias_tiempo_busqueda =['No corresponde', 'Menos de 1 mes', 'De 1 a 3 meses', 'Más de 3 a 6 meses', 'Más de 6 a 12 meses', 'Más de 1 año']

df['tiempo de búsqueda'].replace(identificador_tiempo_busq, categorias_tiempo_busqueda, inplace=True) #REEMPLAZO DE VALORES
categorias_filtradas_tiempo_busqueda = ['Menos de 1 mes', 'De 1 a 3 meses', 'Más de 3 a 6 meses', 'Más de 6 a 12 meses', 'Más de 1 año']
tiempo_filtradas = df[df['tiempo de búsqueda'].isin(categorias_filtradas_tiempo_busqueda)]

conteo_tiempo_busqueda = tiempo_filtradas['tiempo de búsqueda'].value_counts().reindex(categorias_filtradas_tiempo_busqueda, fill_value=0)
print(conteo_tiempo_busqueda)

conteo_tiempo_busqueda.plot(color = "#5F9EA0", kind='bar', stacked=True, figsize=(12,6))
plt.title('Tiempo de búsqueda de trabajo')
plt.xlabel('Tiempo')
plt.ylabel('Cantidad de personas')
plt.grid (True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

"""*¿Alguna vez trabajo?*"""

df.rename(columns={'t18':'trabajo alguna vez'},inplace=True)#RENOMBRAR
identificador_trabajo_alg_vez=sorted(df['trabajo alguna vez'].unique())
print(identificador_trabajo_alg_vez)

categorias_trabajo_alg_vez =['No corresponde', 'Si', 'No']
df['trabajo alguna vez'].replace(identificador_trabajo_alg_vez, categorias_trabajo_alg_vez, inplace=True) #REEMPLAZO DE VALORES
categorias_trabajo_alg_vez_filtrada = ['Si', 'No']

trabajo_alg_vez_filtrado = df[df['trabajo alguna vez'].isin(categorias_trabajo_alg_vez_filtrada)]
detalle_trabajo_alguna_vez=trabajo_alg_vez_filtrado['trabajo alguna vez'].value_counts()
print(detalle_trabajo_alguna_vez)

#GRAFICO
detalle_trabajo_alguna_vez.plot.pie(colors=colors, autopct='%1.1f%%', startangle=120)
plt.title('¿Alguna vez trabajo?')
plt.ylabel('')
plt.show()

"""**Actividad anterior y aportes**

*Actividad anterior*
"""

df.rename(columns={'t20_1':'actividad anterior'},inplace=True)#RENOMBRAR
identificador_act_anterior=sorted(df['actividad anterior'].unique())
categorias_actividad_anterior =['No corresponde', 'Negocio propio', 'Negocio/empresa familiar', 'Empleador/Empresa']
df['actividad anterior'].replace(identificador_act_anterior, categorias_actividad_anterior, inplace=True)

categorias_actividad_anterior_filtrada = ['Negocio propio', 'Negocio/empresa familiar', 'Empleador/Empresa']
categorias_actividad_filtradas_actividad = df[df['actividad anterior'].isin(categorias_actividad_anterior_filtrada)]
categorias_actividad_filtradas_actividad_por_genero = categorias_actividad_filtradas_actividad.groupby(["actividad anterior", "Género"]).size().unstack()
print(categorias_actividad_filtradas_actividad_por_genero)

conteo_actividad_anterior = categorias_actividad_filtradas_actividad['actividad anterior'].value_counts().reindex(categorias_actividad_anterior_filtrada, fill_value=0)

print(conteo_actividad_anterior)

conteo_actividad_anterior.plot(color = "#5F9EA0", kind='bar', stacked=True, figsize=(12,6))
plt.title('Lugar de trabajo Anterior')
plt.xlabel('Lugares')
plt.ylabel('Cantidad de personas')
plt.grid(True, linestyle='--', alpha=0.3)
plt.xticks(rotation=360)
plt.show()

"""*Aportes*"""

df.rename(columns={'t51_d':'jubilacion'},inplace=True)#RENOMBRAR

identificador_jubilacion=sorted(df['jubilacion'].unique())#VALORES ACTUALES

categorias_jubilacion =['No corresponde', 'Le descontaban para la jubilación', 'Aportaba por sí mismo para la jubilación', 'No le descontaban ni aportaba', 'Ns/Nc']#VALORES NUEVOS

df['jubilacion'].replace(identificador_jubilacion, categorias_jubilacion, inplace=True) #REEMPLAZO DE VALORES

categorias_filtradas_jubilacion = ['Le descontaban para la jubilación', 'Aportaba por sí mismo para la jubilación', 'No le descontaban ni aportaba']
categorias_filtradas_j = df[df['jubilacion'].isin(categorias_filtradas_jubilacion)]

categorias_filtradas_jubilacion_por_actividad = categorias_filtradas_j.groupby(["jubilacion", "actividad anterior"]).size().unstack()
print(categorias_filtradas_jubilacion_por_actividad)

# AGRUPA Y CUENTA
grupo_actividad = categorias_actividad_filtradas_actividad.groupby('actividad anterior')['jubilacion'].value_counts().unstack(fill_value=0)

# AGREGA COLUMNAS PARA CADA CATEGORIA DE JUBILACION
for cat in categorias_filtradas_jubilacion:
    if cat not in grupo_actividad.columns:
        grupo_actividad[cat] = 0


grupo_actividad = grupo_actividad[categorias_filtradas_jubilacion] # ORDENA


grupo_actividad.plot(kind='bar', stacked=True, color=colors, figsize=(10, 6))
plt.title('Aportes según Actividad Anterior')
plt.xlabel('Actividad Anterior')
plt.ylabel('Cantidad de Personas')
plt.xticks(rotation=360)
plt.grid (True, linestyle='--', alpha=0.3)
plt.legend(title='Situación con los aportes')

plt.show()