¿Cuál es la diferencia entre R-cuadrado múltiple y R-cuadrado ajustado en una regresión de mínimos cuadrados de una sola variación?


¿Podría alguien explicar a los estadísticamente ingenuos cuál es la diferencia entre Multiple R-squared y Adjusted R-squared? Estoy haciendo un análisis de regresión monovariable de la siguiente manera:

 v.lm <- lm(epm ~ n_days, data=v)
 print(summary(v.lm))

Resultados:

Call:
lm(formula = epm ~ n_days, data = v)

Residuals:
    Min      1Q  Median      3Q     Max 
-693.59 -325.79   53.34  302.46  964.95 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2550.39      92.15  27.677   <2e-16 ***
n_days        -13.12       5.39  -2.433   0.0216 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 410.1 on 28 degrees of freedom
Multiple R-squared: 0.1746,     Adjusted R-squared: 0.1451 
F-statistic: 5.921 on 1 and 28 DF,  p-value: 0.0216 
Author: TMS, 2010-05-20

4 answers

El "ajuste" en R-cuadrado ajustado está relacionado con el número de variables y el número de observaciones.

Si sigue agregando variables (predictores) a su modelo, R-squared mejorará, es decir, los predictores parecerán explicar la varianza, pero parte de esa mejora puede deberse solo al azar. Para ajustar R-cuadrado intenta corregir esta, teniendo en cuenta la relación (N-1)/(N-k-1) donde N = número de observaciones y k = número de variables (predictor).

Probablemente no sea una preocupación en su caso, ya que tiene una sola variación.

Algunas referencias:

  1. ¿Qué tan alto, R-cuadrado?
  2. Estadísticas de bondad de ajuste
  3. Regresión múltiple
  4. Re: Qué es "R^2 ajustado" en Regresión Múltiple
 58
Author: neilfws,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2010-05-20 03:09:19

El R-cuadrado ajustado es cercano, pero diferente del valor de R2. En lugar de basarse en la suma explicada de cuadrados SSR y la suma total de cuadrados SSY, se basa en la varianza general (una cantidad que normalmente no calculamos), s2T = SSY/(n - 1) y la varianza de error MSE (de la tabla ANOVA) y se resuelve de la siguiente manera: adjusted R-squared = (s2T - MSE) / s2t.

Este enfoque proporciona una mejor base para juzgar la mejora en un ajuste debido a la adición de un variable explicativa, pero no tiene la interpretación de resumen simple que tiene R2.

Si no he cometido un error, debe verificar los valores de R-cuadrado ajustado y R-cuadrado de la siguiente manera:

s2T <- sum(anova(v.lm)[[2]]) / sum(anova(v.lm)[[1]])
MSE <- anova(v.lm)[[3]][2]
adj.R2 <- (s2T - MSE) / s2T

Por otro lado, R2 es: SSR / SSY, donde SSR = SSY - SSE

attach(v)
SSE <- deviance(v.lm) # or SSE <- sum((epm - predict(v.lm,list(n_days)))^2)
SSY <- deviance(lm(epm ~ 1)) # or SSY <- sum((epm-mean(epm))^2)
SSR <- (SSY - SSE) # or SSR <- sum((predict(v.lm,list(n_days)) - mean(epm))^2)
R2 <- SSR / SSY 
 8
Author: George Dontas,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2010-05-20 14:00:28

El R-cuadrado no depende del número de variables en el modelo. El ajustado R-cuadrado es.

El R-cuadrado ajustado agrega una penalización por agregar variables al modelo que no están correlacionadas con la variable que intenta explicar. Puede usarlo para probar si una variable es relevante para lo que intenta explicar.

R-cuadrado ajustado es R-cuadrado con algunas divisiones añadidas para hacerlo dependiente del número de variables en el modelo.

 6
Author: Jay,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2010-05-20 17:20:09

Tenga en cuenta que, además del número de variables predictivas, la fórmula ajustada R-cuadrado anterior también se ajusta para el tamaño de la muestra. Una muestra pequeña dará un R-cuadrado engañosamente grande.

Ping Yin & Xitao Fan, J. de Experimental Education 69(2): 203-224, "Estimating R-squared shrinkage in multiple regression", compara diferentes métodos para ajustar r-squared y concluye que los comúnmente utilizados citados anteriormente no son buenos. Recomiendan el Olkin & Pratt fórmula.

Sin embargo, he visto alguna indicación de que el tamaño de la población tiene un efecto mucho mayor de lo que cualquiera de estas fórmulas indican. No estoy convencido de que ninguna de estas fórmulas sea lo suficientemente buena como para permitirle comparar regresiones hechas con tamaños de muestra muy diferentes (por ejemplo, 2,000 vs.200,000 muestras; las fórmulas estándar no harían casi ningún ajuste basado en el tamaño de la muestra). Haría un poco de validación cruzada para comprobar el r-cuadrado en cada muestra.

 2
Author: Phil Goetz,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2015-10-31 00:04:03