Medidas estadísticas#

Nuevamente cargamos el dataset de ifood para hacer una exploración de los datos. Para este caso, vamos a hacer una exploración de los datos desde las medidas de tendencia central y dispersión. Así mismo, vamos a hacer una exploración de los datos categóricos que aquí se encuentran escritos como variables dummy.

Carga de datos#

Recordemos que para cargar los datos debe hacer clic en el panel izquierdo en el botón de exploración de archivos. En ese menu tendra la opción de subir algunos datos.

Note

Recuerde que para cargar los datos debe hacer clic en el panel izquierdo en el botón de exploración de archivos. En ese menu tendra la opción de subir algunos datos. En Google Colab, el archivo se borrará una vez que se cierre el entorno.

import pandas as pd

# Load the dataset from the user's Google Drive
df = pd.read_csv("ifood_df.csv")

# Show DataFrame
df.head(5)
Income Kidhome Teenhome Recency MntWines MntFruits MntMeatProducts MntFishProducts MntSweetProducts MntGoldProds ... marital_Together marital_Widow education_2n Cycle education_Basic education_Graduation education_Master education_PhD MntTotal MntRegularProds AcceptedCmpOverall
0 58138.0 0 0 58 635 88 546 172 88 88 ... 0 0 0 0 1 0 0 1529 1441 0
1 46344.0 1 1 38 11 1 6 2 1 6 ... 0 0 0 0 1 0 0 21 15 0
2 71613.0 0 0 26 426 49 127 111 21 42 ... 1 0 0 0 1 0 0 734 692 0
3 26646.0 1 0 26 11 4 20 10 3 5 ... 1 0 0 0 1 0 0 48 43 0
4 58293.0 1 0 94 173 43 118 46 27 15 ... 0 0 0 0 0 0 1 407 392 0

5 rows × 39 columns

Medidas estadísticas para la variable Recency#

La variable Recency es una variable numérica que representa la cantidad de días desde la última compra. Esta resulta ser una variable muy importante para el análisis de la base de datos, ya que nos permite entender el comportamiento de los clientes. Vamos a hacer varios tipos de exploraciones de esta variable y haremos algunas cuentas que son de variables categóricas pero que aquí tendrán un interpretación.

Por ejemplo, sabemos que las tablas de frecuencia son una forma de entender la distribución de los datos. En este caso, vamos a hacer una tabla de frecuencia para la variable Recency y vamos a hacer una tabla de frecuencia para la variable Recency pero con intervalos de clase.

Note

Recuerde que para hacer una tabla de frecuencia con intervalos de clase, primero debe definir el número de intervalos que va a tener. En este caso, vamos a definir 5 intervalos de clase.

Note

Decimos que las tablas de frecuencia son una forma de entender la distribución de los datos. Efectivamente se utiliza más y mejor en variablñes categóricas, pero en variables numéricas también se puede hacer.

## Veamos la frecuencia de las categorías
df['Recency'].value_counts()
Recency
56    37
30    32
54    32
46    31
65    30
      ..
41    15
59    14
22    13
7     12
44    11
Name: count, Length: 100, dtype: int64
### Ahora una tabla con rangos de clases

# Crear una tabla de frecuencias
tabla_frecuencia = pd.cut(df['Recency'], bins=5).value_counts().sort_index()

# Mostrar la tabla de frecuencias
tabla_frecuencia
Recency
(-0.099, 19.8]    451
(19.8, 39.6]      441
(39.6, 59.4]      445
(59.4, 79.2]      434
(79.2, 99.0]      434
Name: count, dtype: int64

Note

pd.cut es una función de pandas que nos permite hacer intervalos de clase. En este caso, el argumento bins nos permite definir el número de intervalos de clase.

Ahora hagamos cálculos más simples como el máximo, el mínimo, la media, la mediana y la desviación estándar, entre otros.

Note

Recuerde que la media y la mediana son medidas de tendencia central y la desviación estándar es una medida de dispersión.

Las medidas de tendencia central nos permiten entender el valor central de los datos, mientras que las medidas de dispersión nos permiten entender la variabilidad de los datos.

Note

Esta información es importantisima en la inferencia tratar con estos conceptos es fundamental puesto que nos permite aplicar técnicas como:

  • Segmentación de clientes

  • Análisis de canasta de productos

  • Análisis de comportamiento de compra

  • Análisis de ciclo de vida del cliente

  • Análisis de retención de clientes

Incluso, los famosos test A/B que se utilizan para entender el impacto de una campaña de marketing.

## Veamos el mínimo y máximo de la variable Recency
print(df['Recency'].min())
print(df['Recency'].max())
0
99
## Si quisiera describir de mejor manera el dato que estoy observando escribiría

print('El mínimo de la variable Recency es: ', df['Recency'].min())
print('El máximo de la variable Recency es: ', df['Recency'].max())
El mínimo de la variable Recency es:  0
El máximo de la variable Recency es:  99
## Veamos las medidas de tendencia central de la variable Recency

print('La media de la variable Recency es: ', df['Recency'].mean())
print('La mediana de la variable Recency es: ', df['Recency'].median())
print('La moda de la variable Recency es: ', df['Recency'].mode())
La media de la variable Recency es:  49.00907029478458
La mediana de la variable Recency es:  49.0
La moda de la variable Recency es:  0    56
Name: Recency, dtype: int64
## Veamos las medidas de dispersión de la variable Recency

print('El rango de la variable Recency es: ', df['Recency'].max() - df['Recency'].min())
print('La varianza de la variable Recency es: ', df['Recency'].var())
print('La desviación estándar de la variable Recency es: ', df['Recency'].std())
El rango de la variable Recency es:  99
La varianza de la variable Recency es:  837.0670683276336
La desviación estándar de la variable Recency es:  28.932111370026792
## Incluso podriamos explorar los percentiles de la variable Recency

print('El percentil 25 de la variable Recency es: ', df['Recency'].quantile(0.25))
print('El percentil 50 de la variable Recency es: ', df['Recency'].quantile(0.50))
print('El percentil 75 de la variable Recency es: ', df['Recency'].quantile(0.75))
El percentil 25 de la variable Recency es:  24.0
El percentil 50 de la variable Recency es:  49.0
El percentil 75 de la variable Recency es:  74.0

Sin embargo, antes de hacer el cálculo de estas medidas, podría considerar usar describe para obtener un resumen de las medidas de tendencia central y dispersión.

Importante

Los datos aquí cargados son bastante buenos, por eso no estamos haciendo una limpieza de datos. Sin embargo, en un caso real, es importante hacer una limpieza antes de hacer un análisis. Entre los pasos comunes para hacer este prtocesamiento previo, se encuentran:

  • la eliminación de datos faltantes,

  • la eliminación de datos duplicados,

  • la eliminación de datos atípicos, entre otros.

df['Recency'].describe()
count    2205.000000
mean       49.009070
std        28.932111
min         0.000000
25%        24.000000
50%        49.000000
75%        74.000000
max        99.000000
Name: Recency, dtype: float64
## Adicionar estadísticas descriptivas en describe

df['Recency'].describe(percentiles=[.01, .05, .10, .25, .50, .75, .90, .95, .99])
count    2205.000000
mean       49.009070
std        28.932111
min         0.000000
1%          0.000000
5%          4.000000
10%         9.000000
25%        24.000000
50%        49.000000
75%        74.000000
90%        89.000000
95%        94.000000
99%        98.000000
max        99.000000
Name: Recency, dtype: float64