¿Cuál es el número de filtros en CNN?

Question

¿Cuál es el número de filtros en CNN?

Actualmente estoy viendo la API de theano,

theano.tensor.nnet.conv2d(input, filters, input_shape=None, filter_shape=None, border_mode='valid', subsample=(1, 1), filter_flip=True, image_shape=None, **kwargs)

Donde el filter_shape es una tupla de (num_filter, num_channel, height, width), estoy confundido acerca de esto porque no es que el número de filtro decidido por la zancada mientras se desliza la ventana de filtro en la imagen? ¿Cómo puedo especificar un número de filtro como este? Sería razonable para mí si se calcula por el parámetro stride (si hay alguno).

Además, estoy confundido con el término mapa de características también, ¿son las neuronas en cada capa? ¿ ¿tamaño del lote? ¿Cómo se correlacionan?

25

machine-learning neural-network convolution theano

Author: mrry, 2016-03-27

Source

2 answers

El número de filtros es un hiper-parámetro que se puede ajustar. El número de neuronas en una capa convolucional es igual al tamaño de la salida de la capa. En el caso de las imágenes, es el tamaño del mapa de entidades.

1

Author: gapy,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-07-17 02:03:03

score 34 · Accepted Answer

El número de filtros es el número de neuronas, ya que cada neurona realiza una convolución diferente en la entrada a la capa (más precisamente, los pesos de entrada de las neuronas forman núcleos de convolución).

Un mapa de entidades es el resultado de aplicar un filtro (por lo tanto, tiene tantos mapas de entidades como filtros), y su tamaño es el resultado del tamaño de la ventana/núcleo de su filtro y zancada.

La siguiente imagen fue la mejor que pude encontrar para explicar el concepto en alta nivel: Tenga en cuenta que se aplican 2 filtros convolucionales diferentes a la imagen de entrada, lo que resulta en 2 mapas de características diferentes (la salida de los filtros). Cada píxel de cada mapa de entidades es una salida de la capa convolucional.

Por ejemplo, si tiene imágenes de entrada de 28x28 y una capa convolucional con 20 filtros 7x7 y stride 1, obtendrá 20 mapas de entidades de 22x22 en la salida de esta capa. Tenga en cuenta que esto se presenta a la siguiente capa como un volumen con width = height = 22 y depth = num_channels = 20. Podría usar la misma representación para entrenar su CNN en imágenes RGB como las del conjunto de datos CIFAR10, que serían volúmenes de 32x32x3 (la convolución se aplica solo a las 2 dimensiones espaciales).