¿Cuál es la diferencia entre segmentación de imágenes, clasificación y detección?


Respuesta 1:

Agregaré a la respuesta de Omry Sendik

La clasificación puede aplicarse a píxeles o a imágenes. Al clasificar los píxeles, tratamos de decidir si un píxel dado pertenece a una clase en particular, como se indica en la respuesta de Omry.

Al clasificar las imágenes, está tratando de identificar el tipo de imagen que tiene, como cuál es el tema principal de la imagen (persona, perro, autobús, edificio) o si la imagen tiene una composición particular (retrato, paisaje, paisaje nocturno, paisaje urbano, primer plano, etc.) o identificando objetos / personajes que se han detectado y extraído de una imagen más grande (como el conjunto de datos MNIST).

En términos generales, la segmentación transforma los píxeles de la imagen (una representación ráster) en un conjunto de contornos o polígonos (una representación vectorial). La representación vectorial es una descripción más compacta de lo que hay en la imagen y requiere cierta simplificación por parte del software. Por ejemplo, en Google Maps, la vista de mapa es la representación vectorial y la vista de satélite es la representación ráster. La segmentación requiere que defina qué atributos o características deben asociarse con diferentes tipos de segmentos, como carreteras, bosques, ciudades, agua, etc. Como señaló Omry, para la segmentación generalmente clasificamos primero los píxeles en una imagen y luego los segmentamos. la imagen "dibujando" un contorno alrededor de los píxeles que pertenecen a la misma clase o clases similares.

La detección se trata de buscar objetos o características dentro de las imágenes y determinar sus ubicaciones. Por ejemplo, encontrar las caras, signos o placas de matrícula en una imagen.

Otra cosa similar es el "reconocimiento" (o "identificación") en el que no solo estás tratando de identificar la clase a la que pertenece un objeto, sino que también estás tratando de nombrar la cosa específica que está en una imagen. Por ejemplo, una vez que haya detectado una cara, si desea averiguar a quién pertenece esa cara, usaría un algoritmo de reconocimiento para buscar en una base de datos de caras. Esto se usa en biometría.


Respuesta 2:

La segmentación de imagen es la tarea de dividir la imagen en segmentos / regiones que pertenecen a la misma parte / objeto / contenido.

La clasificación de imágenes es la tarea de clasificar lo que aparece en una imagen en una de un conjunto de clases predefinidas. Por ejemplo, respondiendo que lo que aparece en una imagen es un perro.

La detección es la tarea de localizar dónde están los objetos. Por ejemplo, el objetivo de la detección de rostros es decir dónde están los rostros en una imagen.

Tenga en cuenta que la segmentación semántica de imágenes es la tarea de clasificar cada píxel de una imagen en uno de un conjunto de clases predefinidas. Tal salida produce una segmentación de la imagen porque los píxeles cercanos a menudo son de la misma clase y, por lo tanto, dicha imagen de clasificación tiende a segmentar la entrada.


Respuesta 3:

La segmentación de imagen es la tarea de dividir la imagen en segmentos / regiones que pertenecen a la misma parte / objeto / contenido.

La clasificación de imágenes es la tarea de clasificar lo que aparece en una imagen en una de un conjunto de clases predefinidas. Por ejemplo, respondiendo que lo que aparece en una imagen es un perro.

La detección es la tarea de localizar dónde están los objetos. Por ejemplo, el objetivo de la detección de rostros es decir dónde están los rostros en una imagen.

Tenga en cuenta que la segmentación semántica de imágenes es la tarea de clasificar cada píxel de una imagen en uno de un conjunto de clases predefinidas. Tal salida produce una segmentación de la imagen porque los píxeles cercanos a menudo son de la misma clase y, por lo tanto, dicha imagen de clasificación tiende a segmentar la entrada.