¿Qué es el meta parámetro 'pérdida de peso' en Caffe?


Mirando un ejemplo 'solver.prototxt', publicado en BVLC / caffe git, hay un parámetro meta de entrenamiento

weight_decay: 0.04

¿Qué significa este meta parámetro? ¿Y qué valor debo asignarle?

Author: rayryeng, 2015-08-24

2 answers

El meta parámetro weight_decay gobierna el término de regularización de la red neuronal.

Durante el entrenamiento se agrega un término de regularización a la pérdida de la red para calcular el gradiente de backprop. El valor weight_decay determina qué tan dominante será este término de regularización en el cálculo del gradiente.

Como regla general, cuantos más ejemplos de entrenamiento tenga, más débil debería ser este término. Cuantos más parámetros tenga (es decir, red más profunda, filtros más grandes, capas de producto interno más grandes sucesivamente.) cuanto más alto debe ser este término.

Caffe también le permite elegir entre L2 regularización (por defecto) y L1 regularización, configurando

regularization_type: "L1"

Sin embargo, dado que en la mayoría de los casos los pesos son números pequeños (es decir, -1<w<1), la norma L2 de los pesos es significativamente menor que su norma L1. Por lo tanto, si elige usar regularization_type: "L1" puede que necesite ajustar weight_decay a un valor significativamente menor.

Mientras que la tasa de aprendizaje puede (y generalmente cambia) durante entrenamiento, el peso de regularización se fija en todo.

 41
Author: Shai,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-09-23 06:00:19

Weight decay es un término de regularización que penaliza los pesos grandes. Cuando el coeficiente de decaimiento de peso es grande, la pena para los pesos grandes también es grande, cuando se trata de pesos pequeños pueden crecer libremente.

Mira esta respuesta (no específica de caffe) para una mejor explicación: Diferencia entre la red neuronal "pérdida de peso" y "tasa de aprendizaje".

 14
Author: Tal Darom,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-04-13 12:44:13