# Taller 0: Modelo Centrado - Interpretaci√≥n y Utilidad

En este taller exploraremos el modelo de regresi√≥n con variables centradas. Analizaremos c√≥mo cambia la interpretaci√≥n de los coeficientes al centrar las variables y las ventajas computacionales y anal√≠ticas de esta t√©cnica.

## Objetivos de Aprendizaje
- Entender el modelo de regresi√≥n con variables centradas
- Analizar c√≥mo cambia la interpretaci√≥n de los coeficientes al centrar las variables
- Explorar las ventajas del centrado
- Implementar y comparar modelos con y sin centrado


In [None]:
# Importar librer√≠as necesarias
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
from sklearn.linear_model import LinearRegression
import statsmodels.api as sm

# Configuraci√≥n para visualizaciones
plt.style.use('seaborn-v0_8-whitegrid')
sns.set_context('talk')
%matplotlib inline


## üìò Teor√≠a: Modelo Lineal Centrado

### ‚ú® Motivaci√≥n
En modelos de regresi√≥n, el intercepto (\( \beta_0 \)) representa el valor esperado de \( Y \) cuando todas las variables predictoras son cero. Pero muchas veces, este valor no es interpretable o incluso es fuera del rango de los datos. Para solucionar esto, **centramos** las variables.

### üîç ¬øQu√© es centrar una variable?
Centrar una variable significa restarle su media:
\\[
X^*_i = X_i - \\bar{X}
\\]

Esto traslada el origen del eje \( X \) al valor medio de la muestra. La interpretaci√≥n del intercepto ahora cambia: en vez de representar el valor de \( Y \) cuando \( X = 0 \), representa el valor esperado de \( Y \) cuando \( X = \\bar{X} \).

### üßÆ Comparaci√≥n de modelos

- Modelo original:
\\[
Y_i = \\beta_0 + \\beta_1 X_i + \\varepsilon_i
\\]

- Modelo centrado:
\\[
Y_i = \\alpha + \\beta (X_i - \\bar{X}) + \\varepsilon_i
\\]

Relaci√≥n entre par√°metros:
\\[
\\alpha = \\beta_0 + \\beta_1 \\bar{X}
\\quad\\text{y}\\quad
\\beta = \\beta_1
\\]

### üìê Interpretaci√≥n
- **\\(\\beta\\)** sigue representando el cambio promedio en \( Y \) por unidad de cambio en \( X \), **no se ve afectado por el centrado**.
- **\\(\\alpha\\)** representa el valor esperado de \( Y \) cuando \( X = \\bar{X} \).

### üõ†Ô∏è Ventajas del centrado

1. ‚úÖ Mejora la **interpretaci√≥n** del intercepto en muchos contextos.
2. ‚úÖ Facilita el an√°lisis de **interacciones** y **t√©rminos polin√≥micos**.
3. ‚úÖ Ayuda a reducir **multicolinealidad** entre \( X \) y \( X^2 \), por ejemplo.
4. ‚úÖ Mejora la **estabilidad num√©rica** en m√©todos computacionales iterativos (como descenso de gradiente).
5. ‚úÖ Puede mejorar la **convergencia** de algunos algoritmos cuando se trabaja con escalas muy dispares.

### üìå Nota
El centrado **no cambia** el ajuste del modelo ni las predicciones. Solamente modifica la representaci√≥n de los par√°metros.


## Definici√≥n del Modelo Centrado

En un modelo de regresi√≥n est√°ndar, tenemos:

$$y_i = \beta_0 + \beta_1 x_{i1} + \beta_2 x_{i2} + ... + \beta_p x_{ip} + \varepsilon_i$$

Al centrar las variables, trabajamos con:

$$y_i - \bar{y} = \beta_1 (x_{i1} - \bar{x}_1) + \beta_2 (x_{i2} - \bar{x}_2) + ... + \beta_p (x_{ip} - \bar{x}_p) + \varepsilon_i$$

O de forma equivalente:

$$y_i = \beta_0^* + \beta_1 (x_{i1} - \bar{x}_1) + \beta_2 (x_{i2} - \bar{x}_2) + ... + \beta_p (x_{ip} - \bar{x}_p) + \varepsilon_i$$

Donde $\beta_0^* = \bar{y} - \sum_{j=1}^{p} \beta_j \bar{x}_j$ y los coeficientes $\beta_j$ para $j \geq 1$ son id√©nticos en ambos modelos.

## Cambios en la Interpretaci√≥n de los Coeficientes

### En el Modelo Original:
- $\beta_0$: Valor esperado de $y$ cuando todas las variables independientes son 0
- $\beta_j$: Cambio esperado en $y$ cuando $x_j$ aumenta en una unidad, manteniendo las dem√°s variables constantes

### En el Modelo Centrado:
- $\beta_0^*$: Valor esperado de $y$ cuando todas las variables independientes est√°n en sus valores medios
- $\beta_j$: Cambio esperado en $y$ cuando $x_j$ aumenta en una unidad desde su media, manteniendo las dem√°s variables en sus valores medios


# Demostraci√≥n Matricial General: Equivalencia de Coeficientes

Vamos a demostrar matem√°ticamente que los coeficientes de pendiente (Œ≤‚ÇÅ, Œ≤‚ÇÇ, ..., Œ≤‚Çö) son id√©nticos en el modelo original y en el modelo centrado, para el caso general de regresi√≥n lineal m√∫ltiple.

## Notaci√≥n y Definiciones

Para establecer la notaci√≥n:

- $X$ es la matriz de dise√±o original de dimensiones $n \times (p+1)$, donde la primera columna es un vector de unos
- $y$ es el vector de respuestas de dimensi√≥n $n \times 1$
- $\beta = (\beta_0, \beta_1, \ldots, \beta_p)^T$ es el vector de coeficientes del modelo original
- $\beta_c = (\beta_{c0}, \beta_{c1}, \ldots, \beta_{cp})^T$ es el vector de coeficientes del modelo centrado

Definamos ahora la matriz de centrado $C$ de dimensi√≥n $n \times n$:

$$C = I_n - \frac{1}{n}\mathbf{1}_n\mathbf{1}_n^T$$

donde $I_n$ es la matriz identidad de orden $n$ y $\mathbf{1}_n$ es un vector de unos de longitud $n$.

La matriz $C$ tiene las siguientes propiedades:
- $C$ es sim√©trica: $C^T = C$
- $C$ es idempotente: $C^2 = C$
- $C\mathbf{1}_n = \mathbf{0}_n$ (anula cualquier vector constante)
- Para cualquier vector $v$, $Cv$ es el vector centrado (con media cero)

## Matrices del Modelo Centrado

Podemos representar la matriz de dise√±o del modelo centrado $X_c$ como:

$$X_c = \begin{bmatrix} \mathbf{1}_n & CX_{-0} \end{bmatrix}$$

donde $X_{-0}$ es la matriz $X$ sin la primera columna (los predictores sin el intercepto).

Esto significa que mantenemos la columna de unos para el intercepto, pero centramos todas las otras columnas de predictores.

## Derivaci√≥n de los Estimadores

### Modelo Original
El estimador de m√≠nimos cuadrados ordinarios (OLS) para $\beta$ es:

$$\hat{\beta} = (X^TX)^{-1}X^Ty$$

### Modelo Centrado
El estimador OLS para $\beta_c$ es:

$$\hat{\beta}_c = (X_c^TX_c)^{-1}X_c^Ty$$

## Particionamiento de la Matriz X

Para facilitar la demostraci√≥n, particionemos $X$ como:

$$X = \begin{bmatrix} \mathbf{1}_n & X_{-0} \end{bmatrix}$$

Donde $\mathbf{1}_n$ es la columna de unos y $X_{-0}$ contiene todas las dem√°s columnas.

Similarmente, particionamos $\beta$ como:

$$\beta = \begin{bmatrix} \beta_0 \\ \beta_{-0} \end{bmatrix}$$

donde $\beta_0$ es el intercepto y $\beta_{-0}$ es el vector de coeficientes de pendiente.

## Demostraci√≥n

Primero, notemos que:

$$X_c^TX_c = \begin{bmatrix} 
n & \mathbf{0}^T \\
\mathbf{0} & (CX_{-0})^T(CX_{-0})
\end{bmatrix}$$

Esto es porque $\mathbf{1}_n^TCX_{-0} = \mathbf{0}^T$ debido a que $C\mathbf{1}_n = \mathbf{0}_n$.

Adem√°s, $(CX_{-0})^T(CX_{-0}) = X_{-0}^TC^TCX_{-0} = X_{-0}^TCX_{-0}$ ya que $C^T = C$ y $C^2 = C$.

Tambi√©n:

$$X_c^Ty = \begin{bmatrix} 
\mathbf{1}_n^Ty \\
(CX_{-0})^Ty
\end{bmatrix} = \begin{bmatrix} 
n\bar{y} \\
X_{-0}^TCy
\end{bmatrix}$$

La inversi√≥n de $X_c^TX_c$ es:

$$
(X_c^TX_c)^{-1} = \begin{bmatrix} 
\frac{1}{n} & \mathbf{0}^T \\
\mathbf{0} & (X_{-0}^TCX_{-0})^{-1}
\end{bmatrix}
$$

Por lo tanto:

$$
\hat{\beta}_c = \begin{bmatrix} 
\frac{1}{n} \cdot n\bar{y} \\
(X_{-0}^TCX_{-0})^{-1}X_{-0}^TCy
\end{bmatrix} = \begin{bmatrix} 
\bar{y} \\
(X_{-0}^TCX_{-0})^{-1}X_{-0}^TCy
\end{bmatrix}
$$

Ahora, para el modelo original, si usamos las t√©cnicas de inversi√≥n de matrices por bloques en $(X^TX)^{-1}$, podemos demostrar que los coeficientes de pendiente son:

$$\hat{\beta}_{-0} = (X_{-0}^TMX_{-0})^{-1}X_{-0}^TMy$$

donde $M = I_n - \frac{1}{n}\mathbf{1}_n\mathbf{1}_n^T = C$ es exactamente nuestra matriz de centrado.

Por lo tanto:

$$\hat{\beta}_{-0} = (X_{-0}^TCX_{-0})^{-1}X_{-0}^TCy = \hat{\beta}_{c,-0}$$

Esto demuestra que los coeficientes de pendiente del modelo original $\hat{\beta}_{-0}$ son id√©nticos a los coeficientes de pendiente del modelo centrado $\hat{\beta}_{c,-0}$.

## Relaci√≥n Entre Interceptos

Para completar, la relaci√≥n entre los interceptos es:

$$\hat{\beta}_0 = \hat{\beta}_{c0} - \hat{\beta}_{-0}^T\bar{X}_{-0}$$

donde $\bar{X}_{-0}$ es el vector de medias de las columnas de $X_{-0}$.

Esta relaci√≥n se puede verificar sustituyendo las estimaciones en la ecuaci√≥n del modelo y evaluando en el punto medio de los datos.


# üß™ Implementaci√≥n del Modelo Centrado

Vamos a comparar dos modelos de regresi√≥n lineal:

1. El modelo original: donde usamos la variable predictora \( X \) tal como est√°.
2. El modelo centrado: donde usamos la variable centrada \( X_c = X - \\bar{X} \).

Verificaremos que:

- El coeficiente de pendiente \( \\beta \) se mantiene igual.
- El intercepto cambia y adquiere una nueva interpretaci√≥n.
- Las predicciones del modelo **no cambian**.

Tambi√©n visualizaremos las diferencias en las rectas ajustadas para mejorar la interpretaci√≥n.


In [None]:

def centrar_variables(X, return_means=False):
    """
    Centra las variables predictoras restando la media de cada columna.

    Par√°metros:
    -----------
    X : array-like o DataFrame
        Variables predictoras a centrar
    return_means : bool, opcional
        Si es True, devuelve tambi√©n las medias utilizadas para centrar

    Retorna:
    --------
    X_centrado : array o DataFrame
        Variables predictoras centradas
    means : Series o array (opcional)
        Medias de cada columna
    """
    if isinstance(X, pd.DataFrame):
        means = X.mean()
        X_centrado = X - means
    else:
        X = np.asarray(X)
        means = np.mean(X, axis=0)
        X_centrado = X - means

    if return_means:
        return X_centrado, means
    return X_centrado

def ajustar_modelo_original(X, y):
    """
    Ajusta un modelo de regresi√≥n utilizando las variables originales.

    Par√°metros:
    -----------
    X : array-like o DataFrame
        Variables predictoras
    y : array-like o Series
        Variable respuesta

    Retorna:
    --------
    result : objeto ResultadosRegresion
        Resultados de la regresi√≥n con statsmodels
    """
    X_sm = sm.add_constant(X)
    return sm.OLS(y, X_sm).fit()

def ajustar_modelo_centrado(X, y):
    """
    Ajusta un modelo de regresi√≥n utilizando variables centradas.

    Par√°metros:
    -----------
    X : array-like o DataFrame
        Variables predictoras
    y : array-like o Series
        Variable respuesta

    Retorna:
    --------
    result : objeto ResultadosRegresion
        Resultados de la regresi√≥n con statsmodels
    means_X : Series o array
        Medias de las variables predictoras
    mean_y : float
        Media de la variable respuesta
    """
    # Centrar predictores
    X_centrado, means_X = centrar_variables(X, return_means=True)

    # Obtener media de y (aunque no la usamos para centrar en el modelo)
    if isinstance(y, pd.Series):
        mean_y = y.mean()
    else:
        mean_y = np.mean(y)

    # Ajustar modelo con X centrado pero y original
    X_sm = sm.add_constant(X_centrado)
    modelo = sm.OLS(y, X_sm).fit()

    return modelo, means_X, mean_y

def convertir_coef_centrados_a_originales(modelo_centrado, means_X):
    """
    Convierte los coeficientes del modelo centrado a la escala original.

    Par√°metros:
    -----------
    modelo_centrado : objeto ResultadosRegresion
        Modelo ajustado con variables centradas
    means_X : Series o array
        Medias de las variables predictoras

    Retorna:
    --------
    coef_originales : array
        Coeficientes en la escala original
    """
    # Obtener coeficientes del modelo centrado
    coef_centrados = modelo_centrado.params

    # Crear array para los coeficientes originales
    coef_originales = np.zeros_like(coef_centrados)

    # El intercepto original es el centrado menos la suma de (beta_j * mean_X_j)
    intercepto = coef_centrados[0]
    for j in range(1, len(coef_centrados)):
        intercepto -= coef_centrados[j] * means_X[j-1]

    coef_originales[0] = intercepto
    coef_originales[1:] = coef_centrados[1:]

    return coef_originales

def comparar_coeficientes(modelo_original, modelo_centrado, means_X):
    """
    Compara los coeficientes de los modelos original y centrado.

    Par√°metros:
    -----------
    modelo_original : objeto ResultadosRegresion
        Modelo ajustado con variables originales
    modelo_centrado : objeto ResultadosRegresion
        Modelo ajustado con variables centradas
    means_X : Series o array
        Medias de las variables predictoras

    Retorna:
    --------
    None
        Imprime una comparaci√≥n de los coeficientes
    """
    coef_originales = modelo_original.params
    coef_centrados = modelo_centrado.params
    coef_convertidos = convertir_coef_centrados_a_originales(modelo_centrado, means_X)

    print("Comparaci√≥n de coeficientes:")
    print("-" * 50)
    print(f"Œ≤‚ÇÄ (Intercepto):")
    print(f"  Modelo original:     {coef_originales[0]:.6f}")
    print(f"  Convertido de centrado: {coef_convertidos[0]:.6f}")
    print(f"  Diferencia absoluta: {abs(coef_originales[0] - coef_convertidos[0]):.6f}")
    print("-" * 50)

    for i in range(1, len(coef_originales)):
        print(f"Œ≤{i}:")
        print(f"  Modelo original:   {coef_originales[i]:.6f}")
        print(f"  Modelo centrado:   {coef_centrados[i]:.6f}")
        print(f"  Diferencia absoluta: {abs(coef_originales[i] - coef_centrados[i]):.6f}")
        print("-" * 50)


# üîß Generaci√≥n de Datos para Ejemplos

Vamos a simular datos para ilustrar c√≥mo funciona la regresi√≥n lineal con y sin centrado. 

### üìä Especificaciones:
- Generamos 50 observaciones equiespaciadas de una variable \( X \) entre 0 y 10.
- El valor de \( Y \) est√° dado por:
\\[
Y = 3 + 2X + \\varepsilon, \\quad \\varepsilon \\sim \\mathcal{N}(0, 2^2)
\\]
- Fijamos la semilla para asegurar reproducibilidad.

Este conjunto nos permitir√° comparar de manera controlada los efectos del centrado.


In [None]:

def generar_datos_simulados(n=100, beta_true=[2.5, 1.5, -0.8], seed=42, escala_x=10):
    """
    Genera datos sint√©ticos para regresi√≥n lineal m√∫ltiple.

    Par√°metros:
    -----------
    n : int
        N√∫mero de observaciones
    beta_true : list
        Coeficientes reales [intercepto, beta_1, beta_2]
    seed : int
        Semilla para reproducibilidad
    escala_x : float
        Factor de escala para las variables predictoras

    Retorna:
    --------
    X : DataFrame
        Variables predictoras
    y : Series
        Variable respuesta
    """
    np.random.seed(seed)

    # Generar predictores 
    X1 = np.random.normal(escala_x, 2, n)      # Media = 10, std = 2
    X2 = np.random.normal(escala_x * 2, 3, n)  # Media = 20, std = 3

    # Convertir a DataFrame para mejor manejo
    X = pd.DataFrame({'X1': X1, 'X2': X2})

    # Generar variable respuesta
    intercepto = beta_true[0]
    error = np.random.normal(0, 1, n)  # Error aleatorio

    y = intercepto + beta_true[1] * X['X1'] + beta_true[2] * X['X2'] + error
    y = pd.Series(y, name='Y')

    return X, y

# Generar datos para nuestro ejemplo
X, y = generar_datos_simulados(n=100)

# Mostrar estad√≠sticas descriptivas
print("Estad√≠sticas descriptivas de las variables generadas:")
descripcion = pd.concat([X, y], axis=1).describe()
print(descripcion)

# Visualizar la distribuci√≥n de las variables
fig, axes = plt.subplots(1, 3, figsize=(15, 5))

sns.histplot(X['X1'], kde=True, ax=axes[0])
axes[0].set_title('Distribuci√≥n de X1')
axes[0].axvline(X['X1'].mean(), color='r', linestyle='--', label='Media')
axes[0].legend()

sns.histplot(X['X2'], kde=True, ax=axes[1])
axes[1].set_title('Distribuci√≥n de X2')
axes[1].axvline(X['X2'].mean(), color='r', linestyle='--', label='Media')
axes[1].legend()

sns.histplot(y, kde=True, ax=axes[2])
axes[2].set_title('Distribuci√≥n de Y')
axes[2].axvline(y.mean(), color='r', linestyle='--', label='Media')
axes[2].legend()

plt.tight_layout()
plt.show()

# Crear una matriz de dispersi√≥n para visualizar relaciones
scatter_plot = sns.pairplot(pd.concat([X, y], axis=1))
plt.tight_layout()
plt.show()


# Ejemplos Pr√°cticos: Comparaci√≥n de Modelos Original y Centrado

A continuaci√≥n, implementaremos y compararemos modelos con y sin centrado usando los datos generados.


In [None]:

# Ajustar modelo con variables originales
modelo_original = ajustar_modelo_original(X, y)

# Ajustar modelo con variables centradas
modelo_centrado, means_X, mean_y = ajustar_modelo_centrado(X, y)

# Mostrar resumen de los modelos
print("="*80)
print("MODELO CON VARIABLES ORIGINALES")
print("="*80)
print(modelo_original.summary())

print("\n")
print("="*80)
print("MODELO CON VARIABLES CENTRADAS")
print("="*80)
print(modelo_centrado.summary())

# Comparar los coeficientes de los modelos
comparar_coeficientes(modelo_original, modelo_centrado, means_X)

# Verificar matem√°ticamente la relaci√≥n entre los interceptos
print("\nVerificaci√≥n matem√°tica de la relaci√≥n entre interceptos:")
b0_original = modelo_original.params[0]
b1_original = modelo_original.params[1]
b2_original = modelo_original.params[2]

b0_centrado = modelo_centrado.params[0]

# Calcular intercepto original a partir del centrado y las medias
b0_calculado = b0_centrado - b1_original * means_X[0] - b2_original * means_X[1]

print(f"Œ≤‚ÇÄ (original): {b0_original:.6f}")
print(f"Œ≤‚ÇÄ (calculado como Œ≤‚ÇÄ* - Œ≤‚ÇÅ¬∑xÃÑ‚ÇÅ - Œ≤‚ÇÇ¬∑xÃÑ‚ÇÇ): {b0_calculado:.6f}")
print(f"Diferencia: {abs(b0_original - b0_calculado):.6f}")

# Visualizar las diferentes rectas de regresi√≥n para X1 (manteniendo X2 constante)
plt.figure(figsize=(10, 6))

# Rango de valores para X1
x1_range = np.linspace(X['X1'].min() - 1, X['X1'].max() + 1, 100)

# Calcular los valores predichos para el modelo original
x2_media = X['X2'].mean()  # Valor fijo para X2
y_pred_original = modelo_original.params[0] + modelo_original.params[1] * x1_range + modelo_original.params[2] * x2_media

# Calcular los valores predichos para el modelo centrado
y_pred_centrado = modelo_centrado.params[0] + modelo_centrado.params[1] * (x1_range - means_X[0]) + modelo_centrado.params[2] * (x2_media - means_X[1])

# Graficar los datos originales (proyectados en el plano X1-Y para X2=media)
plt.scatter(X['X1'], y, alpha=0.6, label='Datos')

# Graficar las l√≠neas de regresi√≥n
plt.plot(x1_range, y_pred_original, 'r-', linewidth=2, label='Modelo Original')
plt.plot(x1_range, y_pred_centrado, 'g--', linewidth=2, label='Modelo Centrado')

# Marcar las medias
plt.axvline(x=means_X[0], color='k', linestyle=':', label='Media de X1')
plt.axhline(y=mean_y, color='b', linestyle=':', label='Media de Y')
plt.plot(means_X[0], modelo_centrado.params[0], 'ro', markersize=8, label='Punto (xÃÑ‚ÇÅ, Œ≤‚ÇÄ*)')

plt.title('Comparaci√≥n de Modelos Original vs. Centrado')
plt.xlabel('X1 (manteniendo X2 = {:.2f})'.format(x2_media))
plt.ylabel('Y')
plt.legend()
plt.grid(True, alpha=0.3)
plt.show()


# Interpretaci√≥n de Coeficientes en Modelos Centrados vs. Originales

Comparemos la interpretaci√≥n de los coeficientes en cada modelo:

## 1. Intercepto (Œ≤‚ÇÄ)

**Modelo Original:**
- El intercepto (Œ≤‚ÇÄ) representa el valor esperado de Y cuando X1 = 0 y X2 = 0
- A menudo, X1 = 0 y X2 = 0 puede estar fuera del rango de datos observados
- La interpretaci√≥n puede no ser pr√°cticamente significativa

**Modelo Centrado:**
- El intercepto (Œ≤‚ÇÄ*) representa el valor esperado de Y cuando X1 = XÃÑ‚ÇÅ y X2 = XÃÑ‚ÇÇ
- Es el valor esperado de Y en el punto "promedio" de los datos
- La interpretaci√≥n tiene mayor relevancia pr√°ctica

## 2. Coeficientes de Pendiente (Œ≤‚ÇÅ, Œ≤‚ÇÇ)

**Modelo Original y Centrado:**
- Los coeficientes de pendiente (Œ≤‚ÇÅ, Œ≤‚ÇÇ) son id√©nticos en ambos modelos
- Representan el cambio esperado en Y cuando la variable correspondiente aumenta en una unidad, manteniendo las dem√°s constantes

## 3. Relaci√≥n Matem√°tica

La relaci√≥n matem√°tica entre los interceptos es:

$$\beta_0 = \beta_0^* - \beta_1 \bar{X}_1 - \beta_2 \bar{X}_2$$

Como pudimos verificar con nuestros datos, esta relaci√≥n se cumple exactamente.


# Ventajas del Centrado de Variables

El centrado de variables ofrece varias ventajas en la modelaci√≥n:

## 1. Interpretaci√≥n m√°s Significativa del Intercepto

- El intercepto en un modelo centrado representa el valor esperado de la variable respuesta cuando todas las variables predictoras est√°n en sus valores medios.
- Esta interpretaci√≥n suele ser m√°s √∫til que la del modelo original, especialmente cuando el valor de cero para las variables predictoras est√° fuera del rango de los datos o no tiene sentido pr√°ctico.

## 2. Estabilidad Num√©rica Mejorada

- El centrado puede mejorar la estabilidad num√©rica del proceso de estimaci√≥n, especialmente cuando las variables tienen medias muy alejadas de cero.
- Esto es particularmente relevante en c√°lculos computacionales que involucran inversi√≥n de matrices.

## 3. Facilita la Comprensi√≥n y Presentaci√≥n de Resultados

- Los efectos centrados son m√°s f√°ciles de comunicar y entender en presentaciones y reportes.
- El intercepto del modelo centrado proporciona un "punto de referencia" natural en el centro de los datos.

## 4. Base para Modelos m√°s Complejos

- El centrado es un primer paso importante antes de introducir t√©rminos de interacci√≥n o polin√≥micos en modelos m√°s avanzados.
- Facilita la extensi√≥n del modelo lineal simple a modelos m√°s complejos.


# Ejercicios

A continuaci√≥n se presentan varios ejercicios para practicar los conceptos aprendidos sobre el modelo centrado.

### Ejercicio 1
Utiliza el siguiente c√≥digo para generar un conjunto de datos donde las variables X1 y X2 tienen medias muy alejadas de cero:

```python
np.random.seed(123)
X1 = np.random.normal(100, 5, 50)  # Media = 100
X2 = np.random.normal(200, 10, 50)  # Media = 200
X = pd.DataFrame({'X1': X1, 'X2': X2})
y = 5 + 2 * X1 - 3 * X2 + np.random.normal(0, 10, 50)
```

1. Ajusta un modelo de regresi√≥n usando las variables originales.
2. Ajusta un modelo usando variables centradas.
3. Verifica que los coeficientes de pendiente son iguales en ambos modelos.
4. Calcula manualmente el intercepto del modelo original a partir del intercepto del modelo centrado y comprueba que coincide.

### Ejercicio 2
Usando los mismos datos del Ejercicio 1:

1. Calcula las predicciones para 3 observaciones utilizando ambos modelos (original y centrado).
2. Verifica que ambos modelos producen exactamente las mismas predicciones.
3. Visualiza las rectas de regresi√≥n para ambos modelos en un gr√°fico 2D (fijando X2 en su valor medio).

### Ejercicio 3
Crea un conjunto de datos donde el valor X = 0 est√© muy alejado del rango de los datos:

```python
np.random.seed(456)
X = np.random.uniform(50, 60, 30)  # Valores entre 50 y 60
y = 10 + 2 * X + np.random.normal(0, 5, 30)
```

1. Ajusta un modelo de regresi√≥n simple usando X original.
2. Ajusta un modelo usando X centrado.
3. Compara la interpretaci√≥n del intercepto en ambos modelos.
4. ¬øCu√°l de los dos interceptos tiene una interpretaci√≥n m√°s √∫til para estos datos? ¬øPor qu√©?


# Conclusiones

En este taller hemos explorado el modelo de regresi√≥n con variables centradas y sus propiedades:

1. **Equivalencia matem√°tica**: 
   - Hemos demostrado que el modelo centrado y el modelo original son matem√°ticamente equivalentes y producen las mismas predicciones.
   - Los coeficientes de pendiente (Œ≤‚ÇÅ, Œ≤‚ÇÇ, ..., Œ≤‚Çö) son id√©nticos en ambos modelos.
   - El intercepto del modelo original se puede calcular a partir del intercepto del modelo centrado usando la f√≥rmula Œ≤‚ÇÄ = Œ≤‚ÇÄ* - Œ≤‚ÇÅ¬∑xÃÑ‚ÇÅ - Œ≤‚ÇÇ¬∑xÃÑ‚ÇÇ - ... - Œ≤‚Çö¬∑xÃÑ‚Çö.

2. **Interpretaci√≥n mejorada**:
   - El intercepto en un modelo centrado tiene una interpretaci√≥n m√°s natural y √∫til, representando el valor esperado de Y cuando todas las variables est√°n en sus valores medios.
   - Esta interpretaci√≥n es especialmente √∫til cuando el valor 0 para las variables predictoras est√° fuera del rango de los datos o no tiene sentido pr√°ctico.

3. **Beneficios pr√°cticos**:
   - El centrado de variables facilita la comprensi√≥n y comunicaci√≥n de los resultados del modelo.
   - Proporciona un punto de referencia natural (el centro de los datos) para interpretar el intercepto.
   - Mejora la estabilidad num√©rica en algunos casos, especialmente cuando las variables tienen medias muy alejadas de cero.

Es importante destacar que el centrado de variables es una transformaci√≥n simple pero √∫til que no afecta la capacidad predictiva del modelo ni cambia la interpretaci√≥n de los coeficientes de pendiente. Sin embargo, proporciona una interpretaci√≥n m√°s significativa del intercepto y sienta las bases para extensiones m√°s complejas del modelo lineal.


# Referencias

1. Afshartous, D., & Preston, R. A. (2011). Key results of interaction models with centering. *Journal of Statistics Education, 19*(3).

2. Aiken, L. S., & West, S. G. (1991). *Multiple regression: Testing and interpreting interactions*. Sage Publications.

3. Kutner, M. H., Nachtsheim, C. J., Neter, J., & Li, W. (2005). *Applied linear statistical models* (5th ed.). McGraw-Hill/Irwin.
