Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Red neuronal profunda de extremo a extremo para la detección de objetos destacados en entornos complejos

Published: December 15, 2023 doi: 10.3791/65554

Summary

El presente protocolo describe un novedoso algoritmo de detección de objetos destacados de extremo a extremo. Aprovecha las redes neuronales profundas para mejorar la precisión de la detección de objetos destacados dentro de contextos ambientales intrincados.

Abstract

La detección de objetos destacados se ha convertido en un área de interés creciente dentro del ámbito de la visión por computadora. Sin embargo, los algoritmos predominantes exhiben una precisión disminuida cuando se les asigna la tarea de detectar objetos destacados dentro de entornos intrincados y multifacéticos. A la luz de esta preocupación apremiante, este artículo presenta una red neuronal profunda de extremo a extremo que tiene como objetivo detectar objetos destacados dentro de entornos complejos. El estudio presenta una red neuronal profunda de extremo a extremo que tiene como objetivo detectar objetos destacados dentro de entornos complejos. Compuesta por dos componentes interrelacionados, a saber, una red convolucional completa multiescala a nivel de píxel y una red profunda de codificador-decodificador, la red propuesta integra la semántica contextual para producir contraste visual a través de mapas de características multiescala, al tiempo que emplea características de imagen profundas y superficiales para mejorar la precisión de la identificación de los límites de los objetos. La integración de un modelo de campo aleatorio condicional (CRF) totalmente conectado mejora aún más la coherencia espacial y la delineación de contornos de los mapas destacados. El algoritmo propuesto se evalúa exhaustivamente en comparación con 10 algoritmos contemporáneos en las bases de datos SOD y ECSSD. Los resultados de la evaluación demuestran que el algoritmo propuesto supera a otros enfoques en términos de precisión y exactitud, estableciendo así su eficacia en la detección de objetos destacados en entornos complejos.

Introduction

La detección de objetos salientes imita la atención visual humana, identificando rápidamente regiones clave de la imagen y suprimiendo la información de fondo. Esta técnica se emplea ampliamente como herramienta de preprocesamiento en tareas como el recorte de imágenes1, la segmentación semántica2 y la edición de imágenes3. Agiliza tareas como el reemplazo de fondos y la extracción de primer plano, mejorando la eficiencia y precisión de la edición. Además, ayuda en la segmentación semántica al mejorar la localización de objetivos. El potencial de la detección de objetos destacados para mejorar la eficiencia computacional y conservar la memoria subraya sus importantes perspectivas de investigación y aplicación.

A lo largo de los años, la detección de objetos destacados ha evolucionado desde los algoritmos tradicionales iniciales hasta la incorporación de algoritmos de aprendizaje profundo. El objetivo de estos avances ha sido reducir la brecha entre la detección de objetos destacados y los mecanismos visuales humanos. Esto ha llevado a la adopción de modelos de redes convolucionales profundas para el estudio de la detección de objetos destacados. Borji et al.4 resumieron y generalizaron la mayoría de los algoritmos tradicionales clásicos, que se basan en las características subyacentes de la imagen. A pesar de algunas mejoras en la precisión de la detección, la experiencia manual y la cognición siguen planteando desafíos para la detección de objetos destacados en entornos complejos.

El uso de redes neuronales convolucionales (CNN) es frecuente en el dominio de la detección de objetos destacados. En este contexto, las redes neuronales convolucionales profundas se utilizan para actualizar el peso a través del aprendizaje autónomo. Las redes neuronales convolucionales se han empleado para extraer la semántica contextual de las imágenes mediante el uso de capas convolucionales y de agrupación en cascada, lo que permite el aprendizaje de características complejas de la imagen en niveles superiores, que tienen una mayor capacidad de discriminación y caracterización para la detección de objetos destacados en diferentes entornos.

En 2016, las redes neuronales totalmente convolucionales5 ganaron una tracción significativa como un enfoque popular para la detección de objetos destacados, en base al cual los investigadores comenzaron la detección de objetos salientes a nivel de píxel. Muchos modelos suelen construirse en redes existentes (por ejemplo, VGG166, ResNet7), con el objetivo de mejorar la representación de la imagen y reforzar el efecto de la detección de bordes.

Liu et al.8 utilizaron una red neuronal ya entrenada como marco para calcular la imagen globalmente y luego refinaron el límite del objeto utilizando una red jerárquica. La combinación de las dos redes forma la red final de prominencia profunda. Esto se logró introduciendo en la red el mapa saliente previamente adquirido como conocimiento previo de manera repetitiva. Zhang et al.9 fusionaron eficazmente la información semántica y espacial de las imágenes utilizando redes profundas con transferencia bidireccional de información superficial a profunda y de capas profundas a superficiales, respectivamente. La detección de objetos salientes utilizando un modelo profundo de aprendizaje mutuo fue propuesta por Wu et al.10. El modelo utiliza información de primer plano y de borde dentro de una red neuronal convolucional para facilitar el proceso de detección. Li et al.11 emplearon el "algoritmo de agujero" de las redes neuronales para abordar el desafío de fijar los campos receptivos de diversas capas en redes neuronales profundas en el contexto de la detección de objetos destacados. Sin embargo, la segmentación de superpíxeles se utiliza para la adquisición del borde del objeto, lo que aumenta en gran medida el esfuerzo computacional y el tiempo de cálculo. Ren et al.12 idearon una red codificador-decodificador multiescala para detectar objetos destacados y utilizaron redes neuronales convolucionales para combinar eficazmente características profundas y superficiales. Aunque el desafío de la difuminación de límites en la detección de objetos se resuelve a través de este enfoque, la fusión multiescala de información inevitablemente da como resultado mayores demandas computacionales.

La revisión de la literatura13 propone que se resume la detección de prominencia, desde los métodos tradicionales hasta los métodos de aprendizaje profundo, y se puede ver muy claramente la evolución de la detección de dianas de prominencia desde sus orígenes hasta la era del aprendizaje profundo. En la literatura se han propuesto varios modelos de detección de objetos destacados basados en RGB-D con buen rendimiento14. La literatura anterior revisa y clasifica los diversos tipos de algoritmos para la detección de objetos de prominencia y describe sus escenarios de aplicación, las bases de datos utilizadas y las métricas de evaluación. Este artículo también proporciona un análisis cualitativo y cuantitativo de los algoritmos propuestos en relación con sus bases de datos sugeridas y métricas de evaluación.

Todos los algoritmos anteriores han obtenido resultados notables en bases de datos públicas, proporcionando una base para la detección de objetos destacados en entornos complejos. Aunque se han producido numerosos logros de investigación en este campo, tanto a nivel nacional como internacional, todavía quedan algunas cuestiones por abordar. (1) Los algoritmos tradicionales de aprendizaje no profundo tienden a tener una baja precisión debido a su dependencia de características etiquetadas manualmente, como el color, la textura y la frecuencia, que pueden verse fácilmente afectadas por la experiencia y la percepción subjetivas. En consecuencia, la precisión de sus capacidades de detección de objetos sobresalientes se ve disminuida. La detección de objetos destacados en entornos complejos mediante algoritmos tradicionales de aprendizaje no profundo es un reto debido a su dificultad para manejar escenarios intrincados. (2) Los métodos convencionales para la detección de objetos salientes exhiben una precisión limitada debido a su dependencia de características etiquetadas manualmente, como el color, la textura y la frecuencia. Además, la detección a nivel de región puede ser costosa desde el punto de vista computacional, ya que a menudo ignora la coherencia espacial y tiende a detectar mal los límites de los objetos. Estos problemas deben abordarse para mejorar la precisión de la detección de objetos destacados. (3) La detección de objetos destacados en entornos intrincados presenta un desafío para la mayoría de los algoritmos. La mayoría de los algoritmos de detección de objetos destacados se enfrentan a serios desafíos debido al entorno de detección de objetos salientes cada vez más complejo con fondos variables (colores de fondo y primer plano similares, texturas de fondo complejas, etc.), muchas incertidumbres, como tamaños de objetos de detección inconsistentes y la definición poco clara de los bordes de primer plano y fondo.

La mayoría de los algoritmos actuales muestran una baja precisión en la detección de objetos destacados en entornos complejos con colores de fondo y primer plano similares, texturas de fondo complejas y bordes borrosos. Aunque los algoritmos actuales de objetos salientes basados en el aprendizaje profundo demuestran una mayor precisión que los métodos de detección tradicionales, las características de imagen subyacentes que utilizan aún se quedan cortas a la hora de caracterizar las características semánticas de forma eficaz, lo que deja margen de mejora en su rendimiento.

En resumen, este estudio propone una red neuronal profunda de extremo a extremo para un algoritmo de detección de objetos destacados, con el objetivo de mejorar la precisión de la detección de objetos destacados en entornos complejos, mejorar los bordes del objetivo y caracterizar mejor las características semánticas. Las contribuciones de este trabajo son las siguientes: (1) La primera red emplea VGG16 como red base y modifica sus cinco capas de agrupación utilizando el 'algoritmo de agujero'11. La red neuronal convolucional multiescala a nivel de píxel aprende características de imágenes de diferentes escalas espaciales, abordando el desafío de los campos receptivos estáticos en varias capas de redes neuronales profundas y mejorando la precisión de la detección en áreas significativas de enfoque en el campo. (2) Los esfuerzos recientes para mejorar la precisión de la detección de objetos destacados se han centrado en aprovechar las redes neuronales más profundas, como VGG16, para extraer tanto las características de profundidad de la red codificadora como las características superficiales de la red decodificadora. Este enfoque mejora eficazmente la precisión de la detección de los límites de los objetos y mejora la información semántica, especialmente en entornos complejos con fondos variables, tamaños de objetos incoherentes y límites indistintos entre el primer plano y el fondo. (3) Los esfuerzos recientes para mejorar la precisión de la detección de objetos destacados han hecho hincapié en el uso de redes más profundas, incluida VGG16, para extraer características profundas de la red de codificadores y características superficiales de la red de decodificadores. Este enfoque ha demostrado una mejor detección de los límites de los objetos y una mayor información semántica, especialmente en entornos complejos con diferentes fondos, tamaños de objetos y límites indistintos entre el primer plano y el fondo. Además, se ha implementado la integración de un modelo de campo aleatorio condicional (CRF) totalmente conectado para aumentar la coherencia espacial y la precisión del contorno de los mapas destacados. La efectividad de este enfoque se evaluó en conjuntos de datos de SOD y ECSSD con antecedentes complejos y se encontró que era estadísticamente significativa.

Trabajos relacionados
Fu et al.15 propusieron un enfoque conjunto utilizando RGB y aprendizaje profundo para la detección de objetos destacados. Lai et al.16 introdujeron un modelo débilmente supervisado para la detección de objetos destacados, aprendiendo la prominencia de las anotaciones, utilizando principalmente etiquetas garabateadas para ahorrar tiempo de anotación. Si bien estos algoritmos presentaron una fusión de dos redes complementarias para la detección de objetos de prominencia, carecen de una investigación en profundidad sobre la detección de prominencia en escenarios complejos. Wang et al.17 diseñaron una fusión iterativa de dos modos de características de redes neuronales, tanto de abajo hacia arriba como de arriba hacia abajo, optimizando progresivamente los resultados de la iteración anterior hasta la convergencia. Zhang et al.18 fusionaron eficazmente la información semántica y espacial de las imágenes utilizando redes profundas con transferencia bidireccional de información superficial a profunda y de capas profundas a superficiales, respectivamente. La detección de objetos salientes utilizando un modelo profundo de aprendizaje mutuo fue propuesta por Wu et al.19. El modelo utiliza información de primer plano y de borde dentro de una red neuronal convolucional para facilitar el proceso de detección. Estos modelos de detección de objetos salientes basados en redes neuronales profundas han logrado un rendimiento notable en conjuntos de datos disponibles públicamente, lo que permite la detección de objetos destacados en escenas naturales complejas. Sin embargo, el diseño de modelos aún más superiores sigue siendo un objetivo importante en este campo de investigación y sirve como motivación principal para este estudio.

Marco general
La representación esquemática del modelo propuesto, como se muestra en la Figura 1, se deriva principalmente de la arquitectura VGG16, que incorpora una red neuronal convolucional (DCL) multiescala a nivel de píxel y una red de codificador-decodificador profundo (DEDN). El modelo elimina toda la agrupación final y las capas totalmente conectadas de VGG16, al tiempo que se adapta a las dimensiones de la imagen de entrada de W × H. El mecanismo operativo implica el procesamiento inicial de la imagen de entrada a través de la DCL, lo que facilita la extracción de características profundas, mientras que las características superficiales se obtienen de las redes DEDN. La amalgama de estas características se somete posteriormente a un modelo de campo aleatorio condicional (CRF) totalmente conectado, lo que aumenta la coherencia espacial y la precisión del contorno de los mapas de prominencia producidos.

Para determinar la eficacia del modelo, se sometió a pruebas y validación en conjuntos de datos SOD20 y ECSSD21 con antecedentes intrincados. Después de que la imagen de entrada pasa a través de la DCL, se obtienen diferentes mapas de características de escala con varios campos receptivos y se combina la semántica contextual para producir un mapa saliente W × H con coherencia interdimensional. La DCL emplea un par de capas convolucionales con núcleos de 7 x 7 para sustituir la capa de agrupación final de la red VGG16 original, mejorando la preservación de la información espacial en los mapas de entidades. Esto, combinado con la semántica contextual, produce un mapa saliente W × H con coherencia interdimensional. De manera similar, la red de codificador-decodificador profundo (DEDN) utiliza capas convolucionales con 3 x 3 núcleos en los decodificadores y una sola capa convolucional después del último módulo de decodificación. Aprovechando las características profundas y superficiales de la imagen, es posible generar un mapa saliente con una dimensión espacial de W × H, abordando el desafío de los límites indistintos de los objetos. El estudio describe una técnica pionera para la detección de objetos destacados que amalgama los modelos DCL y DEDN en una red unificada. Los pesos de estas dos redes profundas se aprenden a través de un proceso de entrenamiento, y los mapas de prominencia resultantes se fusionan y luego se refinan utilizando un campo aleatorio condicional (CRF) totalmente conectado. El objetivo principal de este refinamiento es mejorar la coherencia espacial y la localización de curvas de nivel.

Red neuronal totalmente convolucional multiescala a nivel de píxel
La arquitectura VGG16 originalmente consistía en cinco capas de agrupación, cada una con un paso de 2. Cada capa de agrupación comprime el tamaño de la imagen para aumentar el número de canales, obteniendo más información contextual. El modelo DCL se inspira en la literatura13 y es una mejora del marco de VGG16. En este artículo, se utiliza un modelo DCL11 a nivel de píxel, como se muestra en la Figura 2 dentro de la arquitectura de VGG16, una red neuronal convolucional profunda. Las cuatro capas de agrupación máximas iniciales están interconectadas con tres núcleos. El primer kernel es 3 × 3 × 128; el segundo kernel es 1 × 1 × 128; y el tercer kernel es 1 × 1 × 1. Para lograr un tamaño uniforme de los mapas de entidades después de las cuatro capas de agrupación iniciales, conectadas a tres núcleos, siendo cada tamaño equivalente a un octavo de la imagen original, el tamaño del paso del primer núcleo conectado a estas cuatro capas de agrupación más grandes se establece en 4, 2, 1 y 1, respectivamente.

Para preservar el campo receptivo original en los diferentes núcleos, se utiliza el "algoritmo de agujeros" propuesto en la literatura11 para ampliar el tamaño del núcleo mediante la adición de ceros, manteniendo así la integridad del núcleo. Estos cuatro mapas de características están conectados al primer kernel con diferentes tamaños de paso. En consecuencia, los mapas de características producidos en la etapa final poseen dimensiones idénticas. Los cuatro mapas de características constituyen un conjunto de características multiescala obtenidas a partir de distintas escalas, cada una de las cuales representa diferentes tamaños de campos receptivos. Los mapas de características resultantes obtenidos de las cuatro capas intermedias se concatenan con el mapa de características final derivado de VGG16, generando así una salida de 5 canales. La salida resultante se somete posteriormente a un kernel 1 × 1 × 1 con la función de activación sigmoide, produciendo finalmente el mapa saliente (con una resolución de un octavo de la imagen original). La imagen se muestrea y se amplía mediante interpolación bilineal, lo que garantiza que la imagen resultante, denominada mapa de prominencia, mantenga una resolución idéntica a la de la imagen inicial.

Red profunda de codificador-decodificador
Del mismo modo, la red VGG16 se emplea como red troncal. VGG16 se caracteriza por un bajo número de canales de mapa de características poco profundos pero de alta resolución y un alto número de canales de características profundas pero de baja resolución. La agrupación de capas y la reducción de muestreo aumentan la velocidad computacional de la red profunda a costa de reducir la resolución de su mapa de entidades. Para solucionar este problema, siguiendo el análisis de la literatura14, se utiliza la red de codificadores para modificar la conectividad completa de la última capa de agrupación en el VGG16 original. Esta modificación implica reemplazarlo con dos capas convolucionales con 7 × 7 núcleos (los núcleos convolucionales más grandes aumentan el campo receptivo). Ambos núcleos de convolución están equipados con una operación de normalización (BN) y una unidad lineal modificada (ReLU). Este ajuste da como resultado un mapa de entidades de salida del codificador que conserva mejor la información del espacio de la imagen.

Si bien el codificador mejora la semántica de imágenes de alto nivel para la localización global de objetos salientes, el problema de desenfoque de límites de su objeto saliente no mejora de manera efectiva. Para abordar este problema, las características profundas se fusionan con características superficiales, inspiradas en el trabajo de detección de bordes12, proponiendo el modelo de red codificador-decodificador (DEDN) como se muestra en la Figura 3. La arquitectura del codificador comprende tres núcleos interconectados con los cuatro iniciales, mientras que el decodificador mejora sistemáticamente la resolución del mapa de características utilizando los valores máximos recuperados de las capas de agrupación máximas.

En esta metodología innovadora para la detección de objetos destacados, durante la fase de decodificador, se utiliza una capa convolucional con un kernel 3 × 3 en combinación con una capa de normalización por lotes y una unidad lineal adaptada. Al final del módulo de decodificación final dentro de la arquitectura del decodificador, se emplea una capa convolucional de canal solitario para obtener un mapa destacado de las dimensiones espaciales W × H. El mapa saliente se genera a través de una fusión colaborativa del modelo codificador-decodificador, que produce el resultado, y la fusión complementaria de los dos, es decir, la fusión complementaria de información profunda e información superficial. Esto no solo logra una localización precisa del objeto saliente y aumenta el campo receptivo, sino que también preserva eficazmente la información detallada de la imagen y fortalece el límite del objeto saliente.

Mecanismo de integración
La arquitectura del codificador consta de tres núcleos, que están asociados con las cuatro capas de agrupación máximas iniciales del modelo VGG16. Por el contrario, el decodificador se formula intencionadamente para aumentar progresivamente la resolución de los mapas de entidades adquiridos de las capas de muestreo ascendente aprovechando los valores máximos obtenidos de las capas de agrupación correspondientes. A continuación, se utiliza en el decodificador una capa convolucional que utiliza un núcleo de 3 x 3, una capa de normalización por lotes y una unidad lineal modificada, seguida de una capa convolucional de un solo canal para generar un mapa destacado de dimensiones W × H. Los pesos de las dos redes profundas se aprenden a través de ciclos de entrenamiento alternos. Los parámetros de la primera red se mantuvieron fijos, mientras que los parámetros de la segunda red se sometieron a un entrenamiento durante un total de cincuenta ciclos. Durante el proceso, los pesos del mapa de prominencia (S1 y S2) utilizado para la fusión se actualizan a través de un gradiente aleatorio. La funciónde pérdida 11 es:

Equation 1 (1)

En la expresión dada, el símbolo G representa el valor etiquetado manualmente, mientras que W significa el conjunto completo de parámetros de red. El peso βi sirve como factor de equilibrio para regular la proporción de píxeles salientes frente a los píxeles no salientes en el proceso de cálculo.

La imagen I se caracteriza por tres parámetros: |I|, |Yo|- y |Yo|+, que representan el número total de píxeles, el recuento de píxeles no salientes y el recuento de píxeles salientes, respectivamente. Equation 2

Dado que los mapas salientes obtenidos de las dos redes anteriores no tienen en cuenta la coherencia de los píxeles vecinos, se utiliza un modelo de refinamiento de prominencia a nivel de píxel totalmente conectado CRF15 para mejorar la coherencia espacial. La ecuación de energía11 es la siguiente, resolviendo el problema de etiquetado de píxeles binarios.

Equation 3 (2)

donde L denota la etiqueta binaria (valor saliente o valor no destacado) asignada a todos los píxeles. La variable P(li) denota la probabilidad de que a un píxel x idado se le asigne una etiqueta específica li, lo que indica la probabilidad de que el píxel xisea saliencia. Al principio, P(1) = Siy P(0) = 1 - Si, donde Sidenota el valor de prominencia en el píxel xidentro del mapa de prominencia fusionado Sθi,j(li,l j) es el potencial por pares, definido de la siguiente manera.

Equation 4 (3)

Entre ellos, si lilj, entonces μ(li,l j) = 1, de lo contrario μ(li,l j) = 0. El cálculo de θi,j implica la utilización de dos núcleos, donde el núcleo inicial depende tanto de la posición del píxel P como de la intensidad del píxel I. Esto da como resultado la proximidad de píxeles con colores similares que exhiben valores de prominencia comparables. Los dos parámetros, σα y σβ, regulan el grado en que la similitud de color y la proximidad espacial influyen en el resultado. El objetivo del segundo kernel es eliminar pequeñas regiones aisladas. La minimización de la energía se logra a través del filtrado de alta dimensión, que acelera el campo medio de la distribución del campo aleatorio condicional (CRF). Tras el cálculo, el mapa saliente denotado como Scrf exhibe una mayor coherencia espacial y contorno con respecto a los objetos salientes detectados.

Configuraciones experimentales
En este artículo, se construye una red profunda para la detección de objetivos destacados basada en la red neuronal VGG16 utilizando Python. El modelo propuesto se compara con otros métodos que utilizan los conjuntos de datos SOD20 y ECSSD21 . La base de datos de imágenes SOD es conocida por sus fondos complejos y desordenados, la similitud de colores entre el primer plano y el fondo, y el tamaño pequeño de los objetos. A cada imagen de este conjunto de datos se le asigna un valor verdadero etiquetado manualmente para la evaluación del rendimiento cuantitativa y cualitativa. Por otro lado, el conjunto de datos de la ECSSD consiste principalmente en imágenes procedentes de Internet, con escenas naturales más complejas y realistas con un bajo contraste entre el fondo de la imagen y los objetos destacados.

Los índices de evaluación utilizados para comparar el modelo en este trabajo incluyen la curva de precisión-recuerdo comúnmente utilizada, Fβy EMAE. Para evaluar cuantitativamente el mapa de prominencia predicho, se emplea la curva22 de Precisión-Recuperación (P-R) alterando el umbral de 0 a 255 para binarizar el mapa de prominencia. Fβes una métrica de evaluación integral, calculada con las ecuaciones de precisión y recuerdo derivadas del mapa de salientes binarizado y un mapa de valores verdaderos.

Equation 5 (4)

donde β es el parámetro de peso para ajustar la precisión y la recuperación, estableciendo β2 = 0,3. El cálculo de EMAEes equivalente a calcular el error absoluto medio entre el mapa de prominencia resultante y el mapa de verdad del terreno, tal como se define en la expresión matemática siguiente:

Equation 6 (5)

Sea Ts(u,v) el valor extraído de los píxeles del mapa saliente (u,v) y sea TG(u,v) el valor correspondiente de los píxeles del mapa verdadero (u,v).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Configuración y procedimiento experimental

  1. Cargue el modelo VGG16 previamente entrenado.
    NOTA: El primer paso es cargar el modelo VGG16 previamente entrenado desde la biblioteca Keras6.
    1. Para cargar un modelo VGG16 previamente entrenado en Python mediante bibliotecas de aprendizaje profundo populares como PyTorch (consulte Tabla de materiales), siga estos pasos generales:
      1. Antorcha de importación. Importe torchvision.models como modelos.
      2. Cargue el modelo VGG16 previamente entrenado. vgg16_model = models.vgg16(preentrenado=Verdadero).
      3. Asegúrese de que el resumen del modelo VGG16 sea "print(vgg16_model)".
  2. Defina los modelos DCL y DEDN.
    1. Para el pseudocódigo del algoritmo DCL, proporcione Entrada: SOD del conjunto de datos de imagen y Salida: Modelo DCL entrenado.
      1. Inicialice el modelo DCL con la red troncal VGG16.
      2. Preprocese el conjunto de datos de imagen D (por ejemplo, cambio de tamaño, normalización).
      3. Divida el conjunto de datos en conjuntos de entrenamiento y validación.
      4. Defina la función de pérdida para entrenar el modelo DCL (por ejemplo, entropía cruzada binaria).
      5. Establezca los hiperparámetros para el entrenamiento: Tasa de aprendizaje (0,0001), Número de épocas de entrenamiento establecidas (50), El tamaño del lote es (8), Optimizador (Adam).
      6. Entrene el modelo DCL: para cada época en el número definido de épocas, haga para cada lote en el conjunto de entrenamiento. Introduzca lo siguiente:
        1. Paso hacia adelante: alimente imágenes por lotes al modelo DCL. Calcule la pérdida utilizando los mapas de prominencia pronosticados y los mapas de realidad del terreno.
        2. Pase hacia atrás: actualice los parámetros del modelo utilizando el final de descenso de gradiente. Calcule la pérdida de validación y otras métricas de evaluación en el extremo del conjunto de validación.
      7. Guarde el modelo DCL entrenado.
      8. Devuelve el modelo DCL entrenado.
    2. Para el pseudocódigo para el algoritmo DEDN, escriba: Conjunto de datos de imagen (X), Mapas de prominencia de la verdad del terreno (Y), Número de iteraciones de entrenamiento (N).
      1. Para la red de codificadores, asegúrese de que el codificador se basa en el esqueleto VGG16 con modificaciones (como se menciona a continuación).
        NOTA: encoder_input = Entrada(forma=input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='same')(encoder_input)
        encoder_pool1 = MaxPooling2D((2, 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(encoder_pool1)
        encoder_pool2 = MaxPooling2D((2, 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool2)
        encoder_pool3 = MaxPooling2D((2, 2))(encoder_conv3)
      2. Para la red de decodificadores, asegúrese de que el decodificador se basa en el esqueleto VGG16 con modificaciones (como se menciona a continuación).
        NOTA: decoder_conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool3)
        decoder_upsample1 = UpSampling2D((2, 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(decoder_upsample1)
        decoder_upsample2 = UpSampling2D((2, 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
        decoder_upsample3 = UpSampling2D((2, 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), activation='sigmoide', padding='same')(decoder_upsample3)
    3. Defina el modelo DEDN. modelo = Modelo (entradas = encoder_input, salidas = decoder_output).
    4. Compile el modelo. model.compile (optimizador = adam, pérdida = binary_crossentropy).
    5. Seleccione el bucle Entrenamiento.
      NOTA: Para la iteración en range(N): # Seleccione aleatoriamente un lote de imágenes y mapas de realidad del terreno; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size).
      1. Entrene el modelo en el lote. pérdida = model.train_on_batch(batch_X, batch_Y). Imprima la pérdida para su supervisión.
    6. Guarde el modelo entrenado. model.save ('dedn_model.h5').
  3. Combinar.
    1. Combine las salidas de las redes DCL y DEDN y refine el mapa de prominencia utilizando un modelo de campo aleatorio condicional (CRF) totalmente conectado.

2. Procesamiento de imágenes

  1. Haga clic en ejecutar código para abrir la interfaz gráfica de usuario (Figura 4).
  2. Haga clic en abrir imagen para seleccionar la ruta y, por lo tanto, la imagen que se va a detectar.
  3. Haga clic en la imagen de visualización para mostrar la imagen que se ha seleccionado para la detección.
  4. Haga clic en iniciar detección para detectar la imagen seleccionada.
    NOTA: El resultado de la detección aparecerá con la imagen detectada, es decir, el resultado del objeto saliente (Figura 5).
  5. Haga clic en seleccionar la ruta de guardado para guardar los resultados de la imagen de la detección de objetos destacados.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Este estudio presenta una red neuronal profunda de extremo a extremo que comprende dos redes complementarias: una red totalmente convolucional multiescala a nivel de píxel y una red profunda de codificador-decodificador. La primera red integra la semántica contextual para derivar contrastes visuales a partir de mapas de características de múltiples escalas, abordando el desafío de los campos receptivos fijos en redes neuronales profundas a través de diferentes capas. La segunda red utiliza características de imagen profundas y superficiales para mitigar el problema de los límites borrosos en los objetos de destino. Por último, se aplica un modelo de campo aleatorio condicional (CRF) totalmente conectado para mejorar la coherencia espacial y los contornos del mapa de prominencia.

El estudio realiza una comparación cualitativa y cuantitativa entre el algoritmo propuesto y diez algoritmos existentes en el campo. Los resultados experimentales demuestran la eficacia del algoritmo propuesto para mejorar la precisión de la detección de objetos significativos. Además, el algoritmo muestra una aplicabilidad potencial en tareas visuales de potencia, ofreciendo perspectivas prometedoras en varios entornos complejos dentro del dominio de las redes eléctricas inteligentes.

Experimentos de ablación
La investigación actual ha ejecutado una serie de experimentos de ablación en la base de datos SOD para evaluar la efectividad del algoritmo. Los resultados de dichos experimentos se detallan en la Tabla 1. (1) Las métricas de evaluación utilizadas para comparar el modelo son la curva de precisión-recuperación22, Fβy EMAE. Los resultados de la Tabla 1 (Nº 1) muestran que la eliminación del modelo DCL del algoritmo provoca una disminución en el valor de Fβy un aumento en el valor de EMAE. La observación anterior sugiere que las capas convolucionales dinámicas (DCL) pueden tener la capacidad de reforzar la eficacia de las redes neuronales profundas mediante la integración de campos receptivos dinámicos en diversas capas, lo que, a su vez, puede aumentar el contraste visual de los mapas de características de múltiples escalas. (2) A partir de la Tabla 1 (No.2), podemos ver que el algoritmo en este documento solo elimina la estructura DEDN, en comparación con el módulo completo en la Tabla 1 (No.3), el valor F_β en la Tabla 1 (No.2) disminuye y el valor E_MAE aumenta, lo que indica que el DEDN puede ubicar de manera efectiva y precisa la prominencia, aumentar el campo receptivo, y conservar la información detallada de la imagen, al tiempo que refuerza los límites de la prominencia.

La Figura 6 presenta los resultados de visualización del experimento de ablación. Las imágenes están ordenadas de izquierda a derecha, mostrando la imagen original, el resultado del algoritmo DCL, el resultado del algoritmo DEDN, el algoritmo propuesto en este artículo y la imagen real del terreno correspondiente. Tras una inspección más detallada de la Figura 6, es evidente que el algoritmo DCL tiende a describir el límite del objetivo cuando detecta imágenes en la base de datos SOD, pero tiene dificultades para filtrar eficazmente el fondo. El algoritmo DEDN, por otro lado, refuerza el límite de destino, pero se enfrenta a desafíos en la supresión de la información de redundancia en segundo plano. Por el contrario, el algoritmo propuesto en este artículo combina las fortalezas de estos dos algoritmos de manera complementaria, resaltando efectivamente el objetivo al tiempo que suprime la información de redundancia de fondos complejos. Los resultados de este trabajo superan a los de cualquiera de los algoritmos por sí solos.

Comparación con otros algoritmos avanzados
Para evaluar el rendimiento del algoritmo propuesto, se realizó un análisis comparativo con once métodos de detección de objetos destacados, a saber, GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 y DCL11. Entre ellos, GMR23, GS24, SF25, PD26, SS27 y DRFI28 son métodos tradicionales de detección de prominencia no supervisada de buen rendimiento comúnmente empleados como puntos de referencia por muchos modelos de prominencia profunda. Los cuatro métodos restantes aprovechan las redes neuronales convolucionales profundas y han demostrado un rendimiento superior en sus respectivas publicaciones de investigación. Las métricas de evaluación empleadas para este estudio incluyen las curvas PR, los valores máximos de la medida F y el error absoluto medio (MAE). Los conjuntos de datos de prueba seleccionados comprenden conjuntos de datos SOD y ECSSD.

Comparación cuantitativa
La Figura 7 ilustra las curvas de precisión-recuperación (PR) que comparan el algoritmo propuesto en este estudio con otros 10 métodos destacados de detección de objetos destacados en los conjuntos de datos de imágenes disponibles públicamente SOD y ECSSD. Las curvas indican claramente que el algoritmo propuesto en este estudio supera a los otros 10 algoritmos, validando así el rendimiento de detección superior del método presentado en este trabajo. De particular interés es la capacidad de este algoritmo para mantener una alta precisión incluso cuando la recuperación se acerca a 1, lo que indica su segmentación precisa de objetos visualmente sobresalientes al tiempo que garantiza su integridad. La Tabla 2 proporciona una comparación cuantitativa de los métodos en los conjuntos de datos de prueba SOD y ECSSD, revelando que nuestro algoritmo logra un mejor rendimiento en términos de la medida F máxima (Fβ) y el error absoluto medio (EMAE), atribuido principalmente a la combinación complementaria de la red DCL y la red DEDN.

Comparación cualitativa
Además, se realizó una evaluación cualitativa para yuxtaponer los resultados visuales de las técnicas analizadas, como se ilustra en la Figura 8. Estas figuras muestran una secuencia de imágenes ordenadas de izquierda a derecha, comenzando con las imágenes originales, seguidas de GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 y DCL11, el algoritmo propuesto en este artículo y el mapa Ground-truth.

En la Figura 8A, se presenta una comparación cualitativa en el conjunto de datos de SOD. Es evidente que la imagen original de la columna 1 exhibe una distribución de color relativamente similar entre los elementos de fondo y primer plano. Además, el primer y tercer mapa de prominencia presentan una textura de fondo más intrincada, lo que podría impedir la detección del objeto destacado. El algoritmo descrito en este estudio muestra una mejora significativa en la detección de objetos destacados en entornos complejos, superando el rendimiento de otros algoritmos existentes. La imagen inicial de la columna 1, en particular la segunda imagen, contiene ramas de fondo que se entremezclan con el animal en primer plano, lo que supone un reto para las evaluaciones correctas del objeto en primer plano. El algoritmo propuesto en este estudio aborda con éxito el problema de la interferencia de fondo y resalta de manera efectiva la región del objeto en primer plano. El experimento demuestra que el algoritmo propuesto logra una alta exactitud y precisión en el manejo de imágenes con fondos complejos.

En la Figura 8B, se presenta una comparación cualitativa dentro del conjunto de datos del ECSSD, que muestra los resultados de contraste visual de varios métodos de detección de objetos destacados. Los hallazgos indican que el algoritmo propuesto logra un rendimiento de detección superior en escenas naturales diversas y complejas. Estas imágenes de escenas naturales abarcan escenarios como objetos salientes en contacto con los límites de la imagen en la primera y segunda imagen y bajo contraste y similitud de color entre el primer plano y el fondo en la tercera imagen. A través de estos resultados visualizados, el algoritmo propuesto aquí resalta de manera efectiva los objetos sobresalientes completos, al tiempo que garantiza límites claros de los objetos. Independientemente de la escala de los objetos destacados, ya sean grandes o pequeños, el algoritmo exhibe constantemente una alta precisión de segmentación, lo que valida su efectividad. Además, en comparación con otros métodos, el algoritmo presentado en este estudio demuestra una mayor robustez, mitigando las falsas detecciones en las regiones de prominencia (o regiones de fondo).

Figure 1
Figura 1: Marco general de la estructura. Representación esquemática del modelo propuesto. Haga clic aquí para ver una versión más grande de esta figura.

Figure 2
Figura 2: El modelo DCL a nivel de píxel. Se utiliza un modelo DCL a nivel de píxel dentro de la arquitectura de VGG16, una red neuronal convolucional profunda. Las cuatro capas de agrupación máximas iniciales están interconectadas con tres núcleos. Haga clic aquí para ver una versión más grande de esta figura.

Figure 3
Figura 3: Modelo de red de codificación-decodificación (DEDN). Las características profundas se fusionan con características superficiales inspiradas en el trabajo de detección de bordes, proponiendo el modelo de red codificador-decodificador (DEDN). Haga clic aquí para ver una versión más grande de esta figura.

Figure 4
Figura 4: La interfaz gráfica de usuario. El código se ejecuta para generar una interfaz gráfica de usuario para facilitar la operación. Haga clic aquí para ver una versión más grande de esta figura.

Figure 5
Figura 5: Demostración de la interfaz gráfica de usuario. Presentación de la interfaz gráfica de usuario para facilitar la comparación de los resultados de las imágenes de prueba. Haga clic aquí para ver una versión más grande de esta figura.

Figure 6
Figura 6: Los resultados de visualización del experimento de ablación. (A) La imagen original, (B) el algoritmo DCL, (C) el algoritmo DEDN, (D) el algoritmo utilizado en el estudio actual, y (E) la imagen real del terreno correspondiente se muestran de izquierda a derecha. Como se puede ver en la Figura 6, (B) el algoritmo DCL solo puede describir el límite del objetivo al detectar imágenes, y el fondo es difícil de filtrar. (C) El algoritmo DEDN tiene el efecto de fortalecer el límite objetivo, pero es igualmente difícil suprimir la información de redundancia de fondo; mientras que (D) el algoritmo de este artículo combina estos dos algoritmos de forma complementaria, resaltando el objetivo y suprimiendo la información de redundancia del fondo complejo. Haga clic aquí para ver una versión más grande de esta figura.

Figure 7
Figura 7: Curva P-R. (A) Las curvas P-R están en bases de datos SOD y (B) Las curvas P-R están en bases de datos ECSSD, respectivamente. Las curvas P-R del algoritmo de este estudio tanto en (A) como en (B) son más altas que las de los otros 10 algoritmos, lo que demuestra que el algoritmo de este trabajo tiene una alta precisión en relación con estos 10 algoritmos. Haga clic aquí para ver una versión más grande de esta figura.

Figure 8
Figura 8: Comparación cualitativa. Comparación cualitativa de diferentes algoritmos de detección de objetos destacados en las bases de datos SOD (A) y ECSSD (B) respectivamente. Lasimágenes de entrada originales se presentan de izquierda a derecha, GMR, GS, SF, PD, SS, DRFI, MDF, ELD, DHS y DCL, el algoritmo propuesto en este estudio y el mapa Ground-truth. Como se ve en (A), el algoritmo descrito proporciona una mejora significativa en la detección de objetos destacados en entornos complejos, superando el rendimiento de otros algoritmos existentes. Como se puede ver en (B), el algoritmo propuesto en este estudio tiene una mayor robustez en comparación con otros métodos, ya que reduce la detección falsa de regiones salientes (o de fondo). Haga clic aquí para ver una versión más grande de esta figura.

No. Configuración del módulo Fβ EMAE
NO.1 Eliminación de DCL solamente 0.835 0.117
NO.2 Eliminación de DEDN solamente 0.832 0.126
NO.3 Módulo Completo 0.854 0.110

Tabla 1: Resultados de los experimentos de ablación.

Modelo CÉSPED ECSSD
Fβ EMAE Fβ EMAE
GMR 0.740 0.148 0.476 0.189
GS 0.677 0.188 0.355 0.344
SF 0.779 0.150 0.309 0.230
PD 0.720 0.162 0.358 0.248
SS 0.574 0.225 0.268 0.344
DRFI 0.801 0.127 0.516 0.166
MDF 0.709 0.150 0.832 0.105
OLMO 0.737 0.154 0.869 0.078
Departamento de Seguridad Nacional (DHS, 0.812 0.127 0.907 0.059
DCL 0.786 0.131 0.901 0.068
Este estudio 0.854 0.110 0.938 0.044

Tabla 2: Los valores máximos de la medida F (Fβ) y los valores MAE (error absoluto medio) de varios algoritmos en dos conjuntos de datos de imágenes.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

El artículo presenta una red neuronal profunda de extremo a extremo diseñada específicamente para la detección de objetos destacados en entornos complejos. La red se compone de dos componentes interconectados: una red convolucional (DCL) multiescala a nivel de píxel y una red de codificador-decodificador profundo (DEDN). Estos componentes funcionan de forma sinérgica, incorporando semántica contextual para generar contrastes visuales dentro de mapas de entidades multiescala. Además, aprovechan las características de imagen profundas y superficiales para mejorar la precisión de la delineación de los límites de los objetos. La integración de un modelo de campo aleatorio condicional (CRF) totalmente conectado mejora aún más la coherencia espacial de los mapas de prominencia y la delineación de curvas de nivel.

Para lograr este objetivo, se construyeron dos redes profundas, a saber, la red Deep Context Learning (DCL) y la Deep Encoder-Decoder Network (DEDN), basadas en la arquitectura VGG16. Como se explicó en el paso operacional 1.2, las imágenes de entrada procesadas a través del DCL producen mapas de características de diferentes escalas, caracterizados por campos receptivos distintos. Estos mapas se combinan posteriormente con la semántica contextual, generando finalmente mapas de prominencia con dimensiones W × H, que poseen coherencia interdimensional. Específicamente, el DCL11 utiliza un par de capas convolucionales, cada una equipada con un kernel de 7 x 7, para reemplazar la capa de agrupación final de la red VGG16 original. Esta modificación es crucial para preservar la información espacial dentro de los mapas de entidades. En colaboración con la semántica contextual, da como resultado mapas de prominencia dotados de coherencia interdimensional.

Al mismo tiempo, la red de codificador-decodificador profundo (DEDN)14 emplea 3 capas convolucionales de kernel 3 x 3 en su sección de decodificador, seguidas de una sola capa convolucional después del último módulo de decodificación. Esta integración de características de nivel profundo y superficial por parte de la DEDN facilita la generación de mapas de prominencia con dimensiones espaciales W × H, abordando los desafíos asociados con los límites indistintos de los objetos. La investigación presentada en este artículo introduce una técnica pionera para la detección de objetos destacados, como se explica en el paso operacional 1.3. Amalgama los modelos DCL y DEDN en un marco de red unificado a través de un proceso de entrenamiento que aprende los pesos de estas dos redes profundas y, posteriormente, fusiona los mapas de prominencia adquiridos. Se logra un mayor refinamiento mediante la aplicación de campos aleatorios condicionales (CRF) de una manera totalmente conectada. El objetivo principal de este refinamiento es mejorar la coherencia espacial y la localización de contornos.

Ambas redes se han mejorado utilizando la arquitectura VGG16 como su red troncal neuronal, fusionándose en última instancia a través de campos aleatorios condicionales (CRF). Si bien el algoritmo propuesto demuestra un potencial considerable en el dominio de la detección de objetivos en entornos complejos, las futuras iniciativas de investigación se dirigirán a mejorar su eficiencia computacional. El objetivo es lograr una velocidad de procesamiento superior sin comprometer el rendimiento de la detección.

El algoritmo propuesto se somete a una evaluación exhaustiva con respecto a 10 algoritmos contemporáneos en las bases de datos SOD20 y ECSSD21 . Los resultados de la evaluación indican que el algoritmo propuesto supera a otros enfoques en términos de precisión y exactitud, estableciendo su eficacia en la detección de objetos destacados en entornos complejos. Además, el algoritmo se muestra prometedor en cuanto a la transferibilidad a tareas visuales en el campo de los sistemas de energía eléctrica. Tiene un potencial significativo para aplicaciones como la segmentación de aisladores y la detección temprana de riesgos de incendio en entornos complejos dentro de redes eléctricas inteligentes.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Los autores no tienen nada que revelar.

Acknowledgments

Este trabajo cuenta con el apoyo del Establecimiento del Programa de Financiación de Proyectos Clave de Investigación Científica de las Instituciones Provinciales de Educación Superior de Henan 2024 (Número de proyecto: 24A520053). Este estudio también cuenta con el apoyo del Curso de Demostración de Características de Creación e Integración Especializadas en la Construcción en la provincia de Henan.

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

Ingeniería Número 202 entornos complejos extremo a extremo redes neuronales profundas detección de objetos destacados
Red neuronal profunda de extremo a extremo para la detección de objetos destacados en entornos complejos
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter