Métrica de mapa en detección de objetos y visión por computadora

Question

Métrica de mapa en detección de objetos y visión por computadora

En la visión por computadora y la detección de objetos, el método común de evaluación es mAP. ¿Qué es y cómo se calcula?

62

computer-vision machine-learning detection metrics vision

Author: mk18, 2016-03-29

Source

4 answers

El MAPA es la Precisión Media.

Su uso es diferente en el campo de la Recuperación de Información (Referencia [1] [2] )y configuración de clasificación Multiclase (Detección de objetos).

Para calcularlo para la Detección de objetos, calcule la precisión promedio para cada clase en sus datos en función de las predicciones de su modelo. La precisión media está relacionada con el área bajo la curva precisión-recuperación para una clase. Entonces tomando la media de estos promedio la precisión de clase individual le da la Precisión Media Promedio.

Para calcular la Precisión Media, consulte [3]

34

Author: Ankitp94,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2016-05-28 11:36:18

Para la detección, una forma común de determinar si una propuesta de objeto era la derecha es Intersección sobre la Unión (IoU, IU). Esto toma el conjunto A de los píxeles de objeto propuestos y el conjunto de píxeles de objeto verdaderos B y calcula:

Comúnmente, IoU > 0.5 significa que fue un éxito, de lo contrario fue un fracaso. Para cada clase, se puede calcular el

True Positive TP (c): se hizo una propuesta para la clase c y en realidad hubo un objeto de clase c
Falso positivo FP (c): se hizo una propuesta para la clase c, pero no hay objeto de la clase c{[16]]}
Precisión media para la clase c:

El mapa (precisión media media) es entonces:

Nota: Si uno quiere mejores propuestas, uno aumenta el pagaré de 0.5 a un valor más alto (hasta 1.0 que sería perfecto). Uno puede denotar esto con mAP @ p, donde p \ in (0, 1) es el IoU.

mAP@[.5:.95] significa que el mapa se calcula sobre múltiples umbrales y luego de nuevo se promedia

Editar: Para obtener información más detallada, consulte las métricas de evaluación de COCO

17

Author: mk18,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2018-10-03 19:25:22

Creo que la parte importante aquí es vincular cómo la detección de objetos puede considerarse lo mismo que los problemas estándar de recuperación de información para los que existe al menos una excelente descripción de precisión media.

La salida de algún algoritmo de detección de objetos es un conjunto de cuadros delimitadores propuestos, y para cada uno, una puntuación de confianza y clasificación (una puntuación por clase). Vamos a ignorar las puntuaciones de clasificación por ahora, y utilizar la confianza como entrada a una clasificación binaria de umbral. Intuitivamente, la precisión promedio es una agregación sobre todas las opciones para el valor de umbral/corte. Pero espera; con el fin de calcular la precisión, necesitamos saber si una caja es correcta!

Aquí es donde se vuelve confuso/difícil; a diferencia de los problemas típicos de recuperación de información, en realidad tenemos un nivel adicional de clasificación aquí. Es decir, no podemos hacer una coincidencia exacta entre cajas, por lo que necesitamos clasificar si un cuadro delimitador es correcto o ni. La solución es esencialmente hacer una clasificación codificada en las dimensiones de la caja; verificamos si se solapa lo suficiente con cualquier verdad del suelo para ser considerado 'correcto'. El umbral para esta parte es elegido por el sentido común. El conjunto de datos en el que está trabajando probablemente definirá cuál es este umbral para un cuadro delimitador 'correcto'. La mayoría de los conjuntos de datos simplemente lo establecen en 0.5 IoU y lo dejan así (recomiendo hacer algunos cálculos manuales de IoU [no son difíciles] para tener una idea de cómo estricto pagaré de 0.5 en realidad es).

Ahora que hemos definido lo que significa ser 'correcto', podemos usar el mismo proceso que la recuperación de información.

Para encontrar la precisión promedio media (mAP), solo estratifica los cuadros propuestos en función del máximo de las puntuaciones de clasificación asociadas con esos cuadros, luego promedia (toma la media) de la precisión promedio (AP) sobre las clases.

TLDR; hacer la distinción entre determinar si una predicción de caja delimitadora es ' correcto '(nivel extra de clasificación) y evaluar qué tan bien la confianza de la caja le informa de una predicción de caja delimitadora 'correcta' (completamente análoga al caso de recuperación de información) y las descripciones típicas de mAP tendrán sentido.

Vale la pena señalar que El área bajo la curva de Precisión/Recuperación es lo mismo que la precisión promedio, y esencialmente estamos aproximando esta área con la regla trapezoidal o de la derecha para aproximar integrales.

7

Author: Multihunter,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-11-17 04:13:55

score 28 · Accepted Answer

Las citas son del documento de Zisserman antes mencionado - 4.2 Evaluación de resultados (Página 11):

Primero, un "criterio de superposición" se define como una intersección sobre la unión mayor que 0.5. (por ejemplo, si una caja prevista cumple este criterio con respecto a una caja de verdad en tierra, se considera una detección). Luego se hace una coincidencia entre las cajas GT y las cajas predichas usando este enfoque "codicioso":

Las detecciones emitidas por un método se asignaron a tierra objetos de verdad cumplir el criterio de solapamiento en orden de (decreciente) salida de confianza. Múltiples detecciones del mismo objeto en una imagen se consideraron falsas detecciones, por ejemplo, 5 detecciones de un solo objeto contadas como 1 detección correcta y 4 falsas detecciones

Por lo tanto, cada cuadro predicho es Verdadero-Positivo o Falso-Positivo. Cada caja de verdad de fondo es Verdadero-Positivo o Falso-Negativo. No hay Verdaderos Negativos.

Entonces el promedio la precisión se calcula promediando los valores de precisión en la curva precisión-recuperación donde la recuperación está en el rango [0, 0.1,..., 1] (por ejemplo, media de 11 valores de precisión). Para ser más precisos, consideramos una curva PR ligeramente corregida, donde para cada punto de curva (p, r), si hay un punto de curva diferente (p', r') tal que p' > p y r' >= r, reemplazamos p por p' máximo de esos puntos.

Lo que todavía no está claro para mí es lo que se hace con esas cajas GT que son nunca detectado (incluso si la confianza es 0). Esto significa que hay ciertos valores de recuperación que la curva de precisión-recuperación nunca alcanzará,y esto hace que el cálculo de precisión promedio sea indefinido.

Editar:

Respuesta corta: en la región donde el recuerdo es inalcanzable, la precisión cae a 0.

Una forma de explicar esto es asumir que cuando el umbral para la confianza se acerca a 0, un número infinito de predijo cajas delimitadoras ilumina toda la imagen. La precisión entonces inmediatamente va a 0 (ya que solo hay un número finito de cajas GT) y el retiro sigue creciendo en esta curva plana hasta que alcanzamos el 100%.