R Importancia Variable de Bosques Aleatorios


Estoy tratando de usar el paquete random forests para la clasificación en R.

Las Medidas de Importancia Variable enumeradas son:

  • puntuación media de importancia bruta de la variable x para la clase 0
  • puntuación media de importancia bruta de la variable x para la clase 1
  • MeanDecreaseAccuracy
  • MeanDecreaseGini

Ahora sé lo que estos "significan" como en conozco sus definiciones. Lo que quiero saber es cómo usarlos.

Lo que realmente quiero saber es lo que significan estos valores en contexto de cuán precisos son, qué es un buen valor, qué es un mal valor,cuáles son los máximos y mínimos, etc.

Si una variable tiene un alto MeanDecreaseAccuracy o MeanDecreaseGini ¿eso significa que es importante o no importante? También cualquier información sobre las puntuaciones en bruto podría ser útil también. Quiero saber todo lo que hay que saber sobre estos números que es relevante para la aplicación de ellos.

Una explicación que use las palabras 'error',' sumatoria', o' permutada ' sería menos útil que una explicación más simple que no involucró ninguna discusión sobre cómo funciona random forests.

Como si quisiera que alguien me explicara cómo usar una radio, no esperaría que la explicación involucre cómo una radio convierte las ondas de radio en sonido.

Author: Andrie, 2009-04-10

3 answers

Una explicación que usa las palabras 'error', 'sumatoria' o 'permutada' sería menos útil que una explicación más simple que no implique ninguna discusión de cómo funciona random forests.

Como si quisiera que alguien me explicara cómo usar una radio, no lo haría espere que la explicación involucre cómo una radio convierte las ondas de radio en sonido.

¿Cómo explicaría lo que los números en WKRP 100.5 FM "significan" sin entrar en la molesta técnica detalles de frecuencias de onda? Francamente, los parámetros y los problemas de rendimiento relacionados con los bosques aleatorios son difíciles de entender, incluso si entiende algunos términos técnicos.

Aquí está mi oportunidad de algunas respuestas:

- puntuación media de importancia bruta de la variable x para la clase 0

- puntuación media de importancia bruta de la variable x para la clase 1

Simplificando desde la página web Random Forest , raw importance score mide cuánto más útil que aleatorio una variable predictora particular está en la clasificación de datos con éxito.

- MeanDecreaseAccuracy

Creo que esto es solo en el módulo R, y creo que mide cuánta inclusión de este predictor en el modelo reduce el error de clasificación.

- MeanDecreaseGini

Gini se define como "inequidad" cuando se usa para describir la distribución de ingresos de una sociedad, o una medida de" impureza de nodo " en clasificación. Un Gini bajo (es decir, una mayor descrease en Gini) significa que una variable predictora particular juega un papel mayor en la partición de los datos en las clases definidas. Es difícil de describir sin hablar del hecho de que los datos en los árboles de clasificación se dividen en nodos individuales en función de los valores de los predictores. No tengo muy claro cómo esto se traduce en un mejor rendimiento.

 26
Author: bubaker,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-05-10 18:38:54

Para su preocupación inmediata: valores más altos significan que las variables son más importantes. Esto debería ser cierto para todas las medidas que mencionas.

Los bosques aleatorios ofrecen modelos bastante complejos, por lo que puede ser difícil interpretar las medidas de importancia. Si desea comprender fácilmente lo que están haciendo sus variables, no utilice RFs. Utilice modelos lineales o un árbol de decisión (no conjunto) en su lugar.

Usted dijo:

Una explicación que usa las palabras "error", "suma" o "permutada" sería menos útil que una más simple explicación que no implicaba ninguna discusión de cómo los bosques aleatorios obrar.

Va a ser terriblemente difícil explicar mucho más que lo anterior a menos que excave y aprenda qué pasa con los bosques aleatorios. Supongo que se está quejando del manual o de la sección del manual de Breiman:

Http://www.stat.berkeley.edu / ~breiman / RandomForests / cc_home.htm # varimp

A la figura fuera de lo importante que es una variable, lo llenan con basura aleatoria ("permute" que), a continuación, ver cuánto disminuye la precisión predictiva. Me Yecreaseaccuracy y Me Yecreasegini funcionan de esta manera. No estoy seguro de cuáles son las puntuaciones de importancia en bruto.

 21
Author: Brendan OConnor,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-07-22 06:54:54

La interpretabilidad es un poco difícil con Bosques aleatorios. Si bien RF es un clasificador extremadamente robusto, hace sus predicciones democráticamente. Con esto me refiero a construir cientos o miles de árboles tomando un subconjunto aleatorio de sus variables y un subconjunto aleatorio de sus datos y construir un árbol. Luego haga una predicción para todos los datos no seleccionados y guarde la predicción. Es robusto porque se ocupa bien de los caprichos de su conjunto de datos, (es decir, suaviza al azar valores altos / bajos, fortuito parcelas / muestras, midiendo lo mismo de 4 maneras diferentes, etc.). Sin embargo, si tiene algunas variables altamente correlacionadas, ambas pueden parecer importantes, ya que no siempre se incluyen ambas en cada modelo.

Un enfoque potencial con bosques aleatorios puede ser ayudar a reducir sus predictores y luego cambiar al CARRITO normal o probar el paquete de GRUPO para modelos de árbol basados en inferencia. Sin embargo, debe tener cuidado con los problemas de minería de datos y hacer inferencias sobre los parámetros.

 6
Author: kpierce8,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2009-07-28 05:55:28