En ggplot2, ¿qué representa el final de las líneas de boxplot?


No puedo encontrar una descripción de lo que representan los puntos finales de las líneas de una gráfica de caja.

Por ejemplo, aquí hay valores de puntos por encima y por debajo de donde terminan las líneas. introduzca la descripción de la imagen aquí

(Me doy cuenta de que la parte superior e inferior de la caja son el percentil 25 y 75, y la línea central es el 50). Asumo, como hay puntos por encima y por debajo de las líneas que no representan los valores max / min.

Author: csgillespie, 2011-02-09

3 answers

Los "puntos" al final de la gráfica de caja representan valores atípicos. Hay varias reglas diferentes para determinar si un punto es un valor atípico, pero el método que usan R y ggplot es la "regla 1.5". Si un punto de datos es:

  • menos que Q1 - 1.5*IQR
  • mayor que Q3 + 1.5*IQR

Entonces ese punto se clasifica como un "valor atípico". Los bigotes se definen como:

Bigote superior = min(max (x), Q_3 + 1.5 * IQR)

Bigote inferior = max (min (x), Q_1-1.5 * IQR)

Donde IQR = Q_3 – Q_1, la longitud de la caja. Así que el bigote superior se encuentra en el más pequeño del valor máximo x y Q_3 + 1.5 IQR, mientras que el bigote inferior se encuentra en el mayor del menor valor x y Q_1 – 1.5 IQR.

Información Adicional

  • Vea la página de la gráfica de caja de wikipedia para ver reglas atípicas alternativas.
  • En realidad hay una variedad de formas de calcular cuantiles. ¿Echar un vistazo?cuantil para la descripción de los nueve métodos diferentes.

Ejemplo

Considere el siguiente ejemplo

> set.seed(1)
> x = rlnorm(20, 1/2)#skewed data
> par(mfrow=c(1,3))
> boxplot(x, range=1.7, main="range=1.7")
> boxplot(x, range=1.5, main="range=1.5")#default
> boxplot(x, range=0, main="range=0")#The same as range="Very big number"

Esto da la siguiente gráfica: introduzca la descripción de la imagen aquí

A medida que disminuimos el rango de 1.7 a 1.5 reducimos la longitud del bigote. Sin embargo, range=0 es un caso especial-es equivalente a"range=infinity"

 53
Author: csgillespie,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-09-21 15:04:07

Creo que ggplot usa los valores predeterminados estándar, lo mismo que boxplot:" los bigotes se extienden hasta el punto de datos más extremo que no es más de [1.5] veces la longitud de la caja lejos de la caja "

Ver: boxplot.estadísticas

 13
Author: Tyler,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2011-02-09 15:41:43

P1IMSA Tutorial 8-Entendiendo las gráficas de Cajas y Bigotes el video ofrece una explicación visual paso a paso de las gráficas de cajas y bigotes (Tukey).

A los 4m 23s explico el significado de los extremos del bigote y su relación con el 1.5*IQR.

Aunque el gráfico mostrado en el video fue renderizado usando D3.js en lugar de R, sus explicaciones coinciden con las implementaciones de R de boxplots mencionadas.

 0
Author: Ken Lin,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2015-04-10 20:33:22