¿Qué es la "segmentación semántica" en comparación con la" segmentación "y el"etiquetado de escenas"?

Question

¿Qué es la "segmentación semántica" en comparación con la" segmentación "y el"etiquetado de escenas"?

¿Es la segmentación semántica solo un pleonasma o hay una diferencia entre "segmentación semántica" y "segmentación"? ¿Hay alguna diferencia entre "etiquetado de escenas"o" análisis de escenas"?

¿Cuál es la diferencia entre la segmentación pixel-level y pixelwise?

(Pregunta lateral: Cuando tiene este tipo de anotación en píxeles, ¿obtiene detección de objetos de forma gratuita o todavía hay algo que hacer?)

Por favor, proporcione una fuente para sus definiciones.

Fuentes que utilizan "segmentación semántica"

Jonathan Long, Evan Shelhamer, Trevor Darrell: Redes Completamente Convolucionales para la Segmentación Semántica. CVPR, 2015 y PAMI, 2016
Hong, Seunghoon, Hyeonwoo Noh, y Bohyung Han: "Red Neuronal Profunda Desacoplada para la Segmentación Semántica Semi-supervisada." arXiv preprint arXiv:1506.04924, 2015.
V. Lempitsky, A. Vedaldi, and A. Zisserman: A pylon model for semantic segmentation. In Advances in Neural Information Processing Systems, 2011.

Fuentes que usan "etiquetado de escena"

Clement Farabet, Camille Couprie, Laurent Najman, Yann LeCun: Características jerárquicas de aprendizaje para el Etiquetado de escenas . En Pattern Analysis and Machine Intelligence, 2013.

Fuente que usa"nivel de píxel"

Pinheiro, Pedro O., y Ronan Collobert: "Del etiquetado a nivel de Imagen al nivel de Píxel con Redes Convolucionales."Actas del IEEE Conferencia sobre Visión por Computador y Reconocimiento de Patrones, 2015. (véase http://arxiv.org/abs/1411.6228 )

Fuente que usa "pixelwise"

Li, Hongsheng, Rui Zhao y Xiaogang Wang: "Propagación hacia adelante y hacia atrás altamente eficiente de redes neuronales convolucionales para la clasificación pixelwise." arXiv preprint arXiv:1412.4526, 2014.

Google Ngrams

"Segmentación semántica" parece ser más utilizado recientemente que " escena etiquetado"

78

image-processing computer-vision image-segmentation object-detection semantic-segmentation

Author: Shai, 2015-11-27

Source

3 answers

He leído muchos artículos sobre Detección de Objetos, Reconocimiento de Objetos, Segmentación de Objetos, Segmentación de Imágenes y Segmentación de Imágenes Semánticas y aquí están mis conclusiones que podrían no ser ciertas:

Reconocimiento de objetos: En una imagen dada, debe detectar todos los objetos (una clase restringida de objetos depende de su conjunto de datos), localizarlos con un cuadro delimitador y etiquetar ese cuadro delimitador con una etiqueta. En la imagen de abajo verá una salida simple de un objeto de última generación reconocimiento.

reconocimiento de objetos

Detección de objetos: es como el reconocimiento de objetos, pero en esta tarea solo tiene dos clases de clasificación de objetos, lo que significa cajas delimitadoras de objetos y cajas no delimitadoras de objetos. Por ejemplo, Detección de automóviles: debe detectar todos los automóviles en una imagen dada con sus cajas delimitadoras.

Detección de Objetos

Segmentación de objetos: Al igual que el reconocimiento de objetos, reconocerá todos los objetos en una imagen, pero su salida debe mostrar este objeto clasificando píxeles de imagen.

segmentación de objetos

Segmentación de imagen: En segmentación de imagen segmentarás regiones de la imagen. su salida no etiquetará los segmentos y la región de una imagen que sean consistentes entre sí deben estar en el mismo segmento. Extraer súper píxeles de una imagen es un ejemplo de esta tarea o segmentación de primer plano.

segmentación de imágenes

Segmentación semántica: En la segmentación semántica tienes que etiquetar cada píxel con una clase de objetos (Coche, Persona, Perro,...) y no objetos (Agua, Cielo, Carretera,...). En otras palabras, en la Segmentación Semántica etiquetará cada región de la imagen.

segmentación semántica

Creo que el etiquetado a nivel de píxel y pixelwise es básicamente lo mismo podría ser segmentación de imágenes o segmentación semántica. También he respondido a su pregunta en este enlace como el mismo.

51

Author: e_soroush,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-04-13 12:48:30

Las respuestas anteriores son realmente geniales, me gustaría señalar algunas adiciones más:

Segmentación De Objetos

Una de las razones por las que esto ha caído en desgracia en la comunidad de investigación es porque es problemáticamente vago. La segmentación de objetos solía significar simplemente encontrar un solo o pequeño número de objetos en una imagen y dibujar un límite alrededor de ellos, y para la mayoría de los propósitos todavía se puede suponer que significa esto. Sin embargo, también comenzó a ser utilizado para significar segmentación de blobs que podrían ser objetos, segmentación de objetos desde el fondo (más comúnmente llamada resta de fondo o segmentación de fondo o detección de primer plano), e incluso en algunos casos se usa indistintamente con el reconocimiento de objetos usando cajas delimitadoras (esto se detuvo rápidamente con la llegada de enfoques de redes neuronales profundas para el reconocimiento de objetos, pero de antemano el reconocimiento de objetos también podría significar simplemente etiquetar una imagen completa con el objeto en se).

¿Qué hace que la "segmentación" sea "semántica"?

Simpy, cada segmento, o en el caso de métodos profundos cada píxel, recibe una etiqueta de clase basada en una categoría. La segmentación en general es solo la división de la imagen por alguna regla. Meanshift segmentación, por ejemplo, desde un nivel muy alto divida los datos según los cambios en la energía de la imagen. Graph cut la segmentación basada no se aprende de manera similar, sino que se deriva directamente de la las propiedades de cada imagen se separan del resto. Los métodos más recientes (basados en redes neuronales) usan píxeles etiquetados para aprender a identificar las características locales que están asociadas con clases específicas, y luego clasifican cada píxel en función de la clase que tiene la mayor confianza para ese píxel. De esta manera, "etiquetado de píxeles" es en realidad un nombre más honesto para la tarea, y el componente de "segmentación" es emergente.

Segmentación de instancias

Posiblemente el más significado difícil, relevante y original de la segmentación de objetos, "segmentación de instancias" significa la segmentación de los objetos individuales dentro de una escena, independientemente de si son del mismo tipo. Sin embargo, una de las razones por las que esto es tan difícil es porque desde una perspectiva de visión (y de alguna manera filosófica) lo que hace que una instancia "objeto" no esté del todo claro. ¿Las partes del cuerpo son objetos? En caso de tales" objetos parte " ser segmentado en absoluto por un algoritmo de segmentación de instancia? Deberían ser segmentados solo si se ven separados del todo? ¿Qué pasa con los objetos compuestos si dos cosas claramente unidas pero separables son un objeto o dos (una roca está pegada a la parte superior de un palo, un hacha, un martillo, o simplemente un palo y una roca a menos que se hagan correctamente?). Además, no está claro cómo distinguir las instancias. ¿Es un testamento una instancia separada de las otras paredes a las que está unido? ¿En qué orden se deben contar las instancias? Como aparecen? ¿Proximidad al mirador? A pesar de estos dificultades, la segmentación de objetos sigue siendo un gran problema porque como humanos interactuamos con objetos todo el tiempo, independientemente de su "etiqueta de clase" (usando objetos aleatorios a su alrededor como pesos de papel, sentados en cosas que no son sillas), y por lo que algunos conjuntos de datos intentan llegar a este problema, pero la razón principal por la que no se le presta mucha atención al problema es porque no está lo suficientemente bien definido.

Análisis de escenas / Etiquetado de escenas

Escena El análisis es el enfoque estrictamente de segmentación para el etiquetado de escenas, que también tiene algunos problemas de vaguedad propios. Históricamente, el etiquetado de escenas significaba dividir toda la "escena" (imagen) en segmentos y darles a todos una etiqueta de clase. Sin embargo, también se usó para dar etiquetas de clase a áreas de la imagen sin segmentarlas explícitamente. Con respecto a la segmentación, la" segmentación semántica " no implica dividir toda la escena. Para la segmentación semántica, el algoritmo está destinado a segmentar solo los objetos que conoce, y será penalizado por su función de pérdida por etiquetar píxeles que no tienen ninguna etiqueta. Por ejemplo, el conjunto de datos MS-COCO es un conjunto de datos para la segmentación semántica donde solo se segmentan algunos objetos.

28

Author: physincubus,
Warning: date(): Invalid date.timezone value 'Europe/Kyiv', we selected the timezone 'UTC' for now. in /var/www/agent_stack/data/www/ajaxhispano.com/template/agent.layouts/content.php on line 61
2017-03-28 22:59:04

score 68 · Accepted Answer

"la segmentación" es una partición de una imagen en varias partes "coherentes", pero sin ningún intento de entender lo que representan estas partes. Una de las obras más famosas (pero definitivamente no la primera) es Shi y Malik "Cortes normalizados y Segmentación de Imágenes" PAMI 2000. Estos trabajos intentan definir la "coherencia" en términos de señales de bajo nivel como el color, la textura y la suavidad del límite. Puede rastrear estas obras hasta la Gestalt theory .

Por otro lado "segmentación semántica" intenta dividir la imagen en partes semánticamente significativas, y para clasificar cada parte en una de las clases predeterminadas. También puede lograr el mismo objetivo clasificando cada píxel (en lugar de toda la imagen/segmento). En ese caso, está haciendo una clasificación en píxeles, lo que conduce al mismo resultado final, pero en un camino ligeramente diferente...

Así que, supongo que se puede decir que " semántica segmentación", "etiquetado de escena" y "clasificación pixelwise" básicamente están tratando de lograr el mismo objetivo: comprender semánticamente el papel de cada píxel en la imagen. Usted puede tomar muchos caminos para alcanzar esa meta, y estos caminos conducen a pequeños matices en la terminología.