Waiting
Elaborazione accesso...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Rede neural profunda de ponta a ponta para detecção de objetos salientes em ambientes complexos

Published: December 15, 2023 doi: 10.3791/65554

Summary

O presente protocolo descreve um novo algoritmo de detecção de objetos salientes de ponta a ponta. Ele aproveita redes neurais profundas para melhorar a precisão da detecção de objetos salientes dentro de contextos ambientais intrincados.

Abstract

A detecção de objetos salientes emergiu como uma área de interesse crescente dentro do reino da visão computacional. No entanto, os algoritmos predominantes exibem precisão diminuída quando encarregados de detectar objetos salientes em ambientes intrincados e multifacetados. À luz dessa preocupação premente, este artigo apresenta uma rede neural profunda de ponta a ponta que visa detectar objetos salientes dentro de ambientes complexos. O estudo introduz uma rede neural profunda de ponta a ponta que visa detectar objetos salientes dentro de ambientes complexos. Compreendendo dois componentes inter-relacionados, a saber, uma rede convolucional completa multiescala em nível de pixel e uma rede codificadora-decodificadora profunda, a rede proposta integra semântica contextual para produzir contraste visual em mapas de feição multiescala, enquanto emprega recursos de imagem profunda e rasa para melhorar a precisão da identificação do limite do objeto. A integração de um modelo de campo aleatório condicional (CRF) totalmente conectado aumenta ainda mais a coerência espacial e a delimitação de contorno de mapas salientes. O algoritmo proposto é extensivamente avaliado contra 10 algoritmos contemporâneos nas bases de dados SOD e ECSSD. Os resultados da avaliação demonstram que o algoritmo proposto supera outras abordagens em termos de precisão e acurácia, estabelecendo assim sua eficácia na detecção de objetos salientes em ambientes complexos.

Introduction

A detecção de objetos salientes imita a atenção visual humana, identificando rapidamente as principais regiões da imagem enquanto suprime as informações de fundo. Essa técnica é amplamente empregada como ferramenta de pré-processamento em tarefas como recorte de imagens1, segmentação semântica2 e edição de imagens3. Ele simplifica tarefas como substituição de plano de fundo e extração de primeiro plano, melhorando a eficiência e a precisão da edição. Além disso, auxilia na segmentação semântica, aprimorando a localização do destino. O potencial da detecção de objetos salientes para melhorar a eficiência computacional e conservar a memória ressalta suas perspectivas significativas de pesquisa e aplicação.

Ao longo dos anos, a detecção de objetos salientes evoluiu de algoritmos tradicionais iniciais para a incorporação de algoritmos de aprendizagem profunda. O objetivo desses avanços tem sido diminuir a lacuna entre a detecção de objetos salientes e os mecanismos visuais humanos. Isso levou à adoção de modelos de redes convolucionais profundas para o estudo da detecção de objetos salientes. Borji et al.4 resumiram e generalizaram a maioria dos algoritmos tradicionais clássicos, que se baseiam nas características subjacentes da imagem. Apesar de alguma melhoria na precisão da detecção, a experiência manual e a cognição continuam a representar desafios para a detecção de objetos salientes em ambientes complexos.

O uso de Redes Neurais Convolucionais (CNNs) é predominante no domínio da detecção de objetos salientes. Nesse contexto, redes neurais convolucionais profundas são utilizadas para atualizações de peso por meio da aprendizagem autônoma. Redes neurais convolucionais têm sido empregadas para extrair semântica contextual de imagens por meio do uso de camadas convolucionais e pooling em cascata, possibilitando o aprendizado de características complexas de imagens em níveis mais elevados, que possuem maior capacidade de discriminação e caracterização para detecção de objetos salientes em diferentes ambientes.

Em 2016, as redes neurais totalmente convolucionais5 ganharam força significativa como uma abordagem popular para detecção de objetos salientes, com base na qual os pesquisadores iniciaram a detecção de objetos salientes em nível de pixel. Muitos modelos são geralmente construídos em redes existentes (por exemplo, VGG166, ResNet7), com o objetivo de melhorar a representação da imagem e fortalecer o efeito da detecção de borda.

Liu et al.8 usaram uma rede neural já treinada como estrutura para calcular a imagem globalmente e, em seguida, refinaram o limite do objeto usando uma rede hierárquica. A combinação das duas redes forma a rede final de saliência profunda. Isso foi feito alimentando o mapa saliente previamente adquirido na rede como conhecimento prévio de forma repetitiva. Zhang et al.9 efetivamente fundiram informações semânticas e espaciais de imagens usando redes profundas com transferência bidirecional de informações de camadas rasas para profundas e de camadas profundas para rasas, respectivamente. A detecção de objetos salientes usando um modelo profundo de aprendizagem mútua foi proposta por Wu et al.10. O modelo utiliza informações de primeiro plano e borda dentro de uma rede neural convolucional para facilitar o processo de detecção. Li et al.11 empregaram o algoritmo de buraco de redes neurais para enfrentar o desafio de fixar os campos receptivos de diversas camadas em redes neurais profundas no contexto da detecção de objetos salientes. No entanto, a segmentação de superpixels é usada para aquisição de borda de objetos, aumentando consideravelmente o esforço computacional e o tempo de computação. Ren et al.12 desenvolveram uma rede codificadora-decodificadora em várias escalas para detectar objetos salientes e utilizaram redes neurais convolucionais para combinar efetivamente características profundas e superficiais. Embora o desafio da diluição de fronteiras na detecção de objetos seja resolvido por meio dessa abordagem, a fusão multiescala de informações inevitavelmente resulta em demandas computacionais elevadas.

A revisão da literatura13 propõe que a detecção de saliência, desde métodos tradicionais até métodos de aprendizagem profunda, é resumida, e a evolução da detecção de alvos de saliência desde suas origens até a era do aprendizado profundo pode ser vista com muita clareza. Vários modelos de detecção de objetos salientes baseados em RGB-D com bom desempenho têm sido propostos na literatura14. A literatura acima revisa e classifica os vários tipos de algoritmos para detecção de objetos de saliência e descreve seus cenários de aplicação, os bancos de dados usados e as métricas de avaliação. Este artigo também fornece uma análise qualitativa e quantitativa dos algoritmos propostos em relação às suas bases de dados sugeridas e métricas de avaliação.

Todos os algoritmos acima obtiveram resultados notáveis em bancos de dados públicos, fornecendo uma base para a detecção de objetos salientes em ambientes complexos. Embora tenha havido inúmeras realizações de pesquisa neste campo, tanto nacional quanto internacionalmente, ainda há algumas questões a serem abordadas. (1) Os algoritmos tradicionais de não-aprendizagem profunda tendem a ter baixa precisão devido à sua dependência de características rotuladas manualmente, como cor, textura e frequência, que podem ser facilmente afetadas pela experiência e percepção subjetivas. Consequentemente, a precisão de suas capacidades de detecção de objetos salientes é diminuída. Detectar objetos salientes em ambientes complexos usando algoritmos tradicionais de aprendizagem não profunda é desafiador devido à sua dificuldade em lidar com cenários intrincados. (2) Os métodos convencionais de detecção de objetos salientes apresentam acurácia limitada devido à sua dependência de características rotuladas manualmente, como cor, textura e frequência. Além disso, a detecção em nível de região pode ser computacionalmente cara, muitas vezes ignorando a consistência espacial, e tende a detectar mal os limites dos objetos. Essas questões precisam ser abordadas para aumentar a precisão da detecção de objetos salientes. (3) A detecção de objetos salientes em ambientes intrincados representa um desafio para a maioria dos algoritmos. A maioria dos algoritmos de detecção de objetos salientes enfrenta sérios desafios devido ao ambiente de detecção de objetos salientes cada vez mais complexo com planos de fundo variáveis (cores de fundo e primeiro plano semelhantes, texturas de plano de fundo complexas, etc.), muitas incertezas, como tamanhos de objetos de detecção inconsistentes e a definição pouco clara de bordas de primeiro plano e plano de fundo.

A maioria dos algoritmos atuais exibe baixa precisão na detecção de objetos salientes em ambientes complexos com cores de fundo e primeiro plano semelhantes, texturas de fundo complexas e bordas borradas. Embora os algoritmos atuais de objetos salientes baseados em aprendizado profundo demonstrem maior precisão do que os métodos tradicionais de detecção, os recursos de imagem subjacentes que eles utilizam ainda são insuficientes para caracterizar recursos semânticos de forma eficaz, deixando espaço para melhorias em seu desempenho.

Em resumo, este estudo propõe uma rede neural profunda de ponta a ponta para um algoritmo de detecção de objetos salientes, com o objetivo de aumentar a precisão da detecção de objetos salientes em ambientes complexos, melhorar as bordas do alvo e caracterizar melhor as características semânticas. As contribuições deste trabalho são as seguintes: (1) A primeira rede emprega VGG16 como rede base e modifica suas cinco camadas de agrupamento usando o algoritmo de furo11. A rede neural multi-escala totalmente convolucional em nível de pixel aprende características de imagem de diferentes escalas espaciais, abordando o desafio de campos receptivos estáticos em várias camadas de redes neurais profundas e melhorando a precisão de detecção em áreas significativas de foco no campo. (2) Esforços recentes para melhorar a precisão da detecção de objetos salientes têm se concentrado em aproveitar redes neurais mais profundas, como VGG16, para extrair recursos de profundidade da rede codificadora e recursos superficiais da rede decodificadora. Essa abordagem efetivamente aumenta a precisão de detecção de limites de objetos e melhora as informações semânticas, particularmente em ambientes complexos com planos de fundo variáveis, tamanhos de objeto inconsistentes e limites indistintos entre primeiro plano e plano de fundo. (3) Esforços recentes para melhorar a precisão da detecção de objetos salientes enfatizaram o uso de redes mais profundas, incluindo VGG16, para extrair recursos profundos da rede codificadora e recursos superficiais da rede decodificadora. Essa abordagem demonstrou melhor detecção de limites de objetos e maior informação semântica, especialmente em ambientes complexos com planos de fundo variados, tamanhos de objetos e limites indistintos entre o primeiro plano e o plano de fundo. Adicionalmente, a integração de um modelo de campo aleatório condicional (CRF) totalmente conectado foi implementada para aumentar a coerência espacial e a precisão de contorno de mapas salientes. A eficácia dessa abordagem foi avaliada em conjuntos de dados SOD e ECSSD com antecedentes complexos e mostrou-se estatisticamente significativa.

Trabalhos relacionados
Fu et al.15 propuseram uma abordagem conjunta usando RGB e deep learning para detecção de objetos salientes. Lai et al.16 introduziram um modelo fracamente supervisionado para detecção de objetos salientes, aprendendo a saliência a partir de anotações, utilizando principalmente rótulos de rabisco para economizar tempo de anotação. Embora esses algoritmos tenham apresentado uma fusão de duas redes complementares para detecção de objetos de saliência, eles carecem de uma investigação aprofundada sobre a detecção de saliência em cenários complexos. Wang et al.17 projetaram uma fusão iterativa de dois modos de recursos de redes neurais, tanto bottom-up quanto top-down, otimizando progressivamente os resultados da iteração anterior até a convergência. Zhang et al.18 efetivamente fundiram informações semânticas e espaciais de imagens usando redes profundas com transferência bidirecional de informações de camadas rasas para profundas e de camadas profundas para rasas, respectivamente. A detecção de objetos salientes utilizando um modelo profundo de aprendizagem mútua foi proposta por Wu et al.19. O modelo utiliza informações de primeiro plano e borda dentro de uma rede neural convolucional para facilitar o processo de detecção. Esses modelos de detecção de objetos salientes baseados em redes neurais profundas alcançaram um desempenho notável em conjuntos de dados disponíveis publicamente, permitindo a detecção de objetos salientes em cenas naturais complexas. No entanto, o desenho de modelos ainda mais superiores continua sendo um objetivo importante neste campo de pesquisa e serve como motivação primária para este estudo.

Quadro geral
A representação esquemática do modelo proposto, como mostrado na Figura 1, é derivada principalmente da arquitetura VGG16, incorporando uma rede neural multiescala totalmente convolucional (DCL) em nível de pixel e uma rede codificadora-decodificadora profunda (DEDN). O modelo elimina todo o pool final e camadas totalmente conectadas de VGG16 enquanto acomoda as dimensões da imagem de entrada de W × H. O mecanismo operacional envolve o processamento inicial da imagem de entrada via DCL, facilitando a extração de feições profundas, enquanto feições rasas são obtidas a partir das redes DEDN. A fusão dessas características é posteriormente submetida a um modelo de campo aleatório condicional (CRF) totalmente conectado, aumentando a coerência espacial e a precisão de contorno dos mapas de saliência produzidos.

Para verificar a eficácia do modelo, ele foi submetido a testes e validação em conjuntos de dados SOD20 e ECSSD21 com intrincados backgrounds. Depois que a imagem de entrada passa pelo DCL, diferentes mapas de características de escala com vários campos receptivos são obtidos, e semânticas contextuais são combinadas para produzir um mapa saliente W × H com coerência interdimensional. A DCL emprega um par de camadas convolucionais com núcleos 7 x 7 para substituir a camada de agrupamento final da rede VGG16 original, aumentando a preservação da informação espacial nos mapas de feição. Isso, combinado com a semântica contextual, produz um mapa saliente W × H com coerência interdimensional. Da mesma forma, a Deep Encoder-Decoder Network (DEDN) utiliza camadas convolucionais com 3 x 3 núcleos nos decodificadores e uma única camada convolucional após o último módulo de decodificação. Aproveitando características profundas e rasas da imagem, é possível gerar um mapa saliente com uma dimensão espacial de W × H, abordando o desafio dos limites indistintos do objeto. O estudo descreve uma técnica pioneira para detecção de objetos salientes que amalgama os modelos DCL e DEDN em uma rede unificada. Os pesos dessas duas redes profundas são aprendidos através de um processo de treinamento, e os mapas de saliência resultantes são fundidos e, em seguida, refinados usando um Campo Aleatório Condicional (CRF) totalmente conectado. O objetivo primário desse refinamento é melhorar a consistência espacial e a localização de contornos.

Rede neural multiescala em nível de pixel totalmente convolucional
A arquitetura VGG16 originalmente consistia de cinco camadas de pooling, cada uma com um passo de 2. Cada camada de pool compacta o tamanho da imagem para aumentar o número de canais, obtendo mais informações contextuais. O modelo DCL é inspirado naliteratura13 e é um aprimoramento do framework do VGG16. Neste artigo, um modelo DCL de nível de pixel11 é usado, como mostrado na Figura 2 dentro da arquitetura do VGG16, uma rede neural convolucional profunda. As quatro camadas iniciais de pool máximo são interconectadas com três núcleos. O primeiro kernel é 3 × 3 × 128; o segundo núcleo é 1 × 1 × 128; e o terceiro núcleo é 1 × 1 × 1. Para obter um tamanho uniforme de mapas de feição após as quatro camadas iniciais de agrupamento, conectadas a três núcleos, com cada tamanho sendo equivalente a um oitavo da imagem original, o tamanho do passo do primeiro kernel conectado a essas quatro maiores camadas de agrupamento é definido como 4, 2, 1 e 1, respectivamente.

Para preservar o campo receptivo original nos diferentes núcleos, o "algoritmo de buraco" proposto na literatura11 é usado para estender o tamanho do kernel adicionando zeros, mantendo assim a integridade do núcleo. Esses quatro mapas de recursos são conectados ao primeiro kernel com diferentes tamanhos de passos. Consequentemente, os mapas de feição produzidos na etapa final possuem dimensões idênticas. Os quatro mapas de feições constituem um conjunto de feições multiescalares obtidas a partir de escalas distintas, cada uma representando tamanhos variados de campos receptivos. Os mapas de feição resultantes obtidos das quatro camadas intermediárias são concatenados com o mapa de feição final derivado de VGG16, gerando assim uma saída de 5 canais. A saída subsequente é subsequentemente submetida a um kernel 1 × 1 × 1 com a função de ativação sigmoide, produzindo finalmente o mapa saliente (com uma resolução de um oitavo da imagem original). A imagem é aumentada e ampliada usando interpolação bilinear, garantindo que a imagem resultante, referida como o mapa de saliência, mantenha uma resolução idêntica à imagem inicial.

Rede codificadora-decodificadora profunda
Da mesma forma, a rede VGG16 é empregada como a rede de backbone. VGG16 é caracterizado por um baixo número de canais de mapa de feição rasa, mas alta resolução e um alto número de canais de recursos profundos, mas baixa resolução. O agrupamento de camadas e a redução da amostragem aumentam a velocidade computacional da rede profunda ao custo de reduzir a resolução do mapa de feições. Para resolver esse problema, seguindo a análise na literatura14, a rede codificadora é usada para modificar a conectividade total da última camada de pool no VGG16 original. Esta modificação envolve substituí-lo por duas camadas convolucionais com 7 × 7 núcleos (núcleos convolucionais maiores aumentam o campo receptivo). Ambos os núcleos de convolução são equipados com uma operação de normalização (BN) e uma unidade linear modificada (ReLU). Esse ajuste resulta em um mapa de recursos de saída do codificador que preserva melhor as informações de espaço da imagem.

Embora o codificador melhore a semântica de imagem de alto nível para a localização global de objetos salientes, o problema de borramento de limites de seu objeto saliente não é efetivamente melhorado. Para resolver esse problema, recursos profundos são fundidos com recursos superficiais, inspirados no trabalho de detecção de borda12, propondo o modelo de rede codificador-decodificador (DEDN), como mostrado na Figura 3. A arquitetura do codificador compreende três núcleos interconectados com os quatro iniciais, enquanto o decodificador melhora sistematicamente a resolução do mapa de feição usando os valores máximos recuperados das camadas máximas de pooling.

Nesta metodologia inovadora para detecção de objetos salientes, durante a fase decodificadora, uma camada convolucional com um kernel 3 × 3 é utilizada em combinação com uma camada de normalização em lote e uma unidade linear adaptada. Na conclusão do módulo de decodificação final dentro da arquitetura do decodificador, uma camada convolucional de canal solitário é empregada para obter um mapa saliente de dimensões espaciais W × H. O mapa saliente é gerado através de uma fusão colaborativa do modelo codificador-decodificador, produzindo o resultado, e a fusão complementar dos dois, ou seja, a fusão complementar de informações profundas e informações superficiais. Isso não apenas alcança a localização precisa do objeto saliente e aumenta o campo receptivo, mas também preserva efetivamente as informações de detalhes da imagem e fortalece o limite do objeto saliente.

Mecanismo de integração
A arquitetura do codificador compreende três kernels, que estão associados às quatro camadas iniciais de pool máximo do modelo VGG16. Em contraste, o decodificador é intencionalmente formulado para aumentar progressivamente a resolução de mapas de feição adquiridos a partir das camadas de amostragem ascendente, aproveitando os valores máximos obtidos das camadas de agrupamento correspondentes. Uma camada convolucional utilizando um kernel 3 x 3, uma camada de normalização em lote e uma unidade linear modificada são então utilizadas no decodificador, seguidas por uma camada convolucional de canal único para gerar um mapa saliente de dimensões W × H. Os pesos das duas redes profundas são aprendidos através de ciclos de treinamento alternados. Os parâmetros da primeira rede foram mantidos fixos, enquanto os parâmetros da segunda rede foram submetidos a treinamento por um total de cinquenta ciclos. Durante o processo, os pesos do mapa de saliência (S1 e S2) usado para fusão são atualizados através de um gradiente aleatório. A função de perda11 é:

Equation 1 (1)

Na expressão dada, o símbolo G representa o valor rotulado manualmente, enquanto W significa o conjunto completo de parâmetros de rede. O peso βi serve como um fator de equilíbrio para regular a proporção de pixels salientes versus pixels não salientes no processo de computação.

A imagem I é caracterizada por três parâmetros: |I|, |I|- e |I|+, que representam o número total de pixels, a contagem de pixels não salientes e a contagem de pixels salientes, respectivamente. Equation 2

Uma vez que os mapas salientes obtidos das duas redes acima não consideram a coerência dos pixels vizinhos, um modelo de refinamento de saliência em nível de pixel totalmente conectado CRF15 é usado para melhorar a coerência espacial. A equação de energia11 é a seguinte, resolvendo o problema de marcação binária de pixels.

Equation 3 (2)

onde L denota o rótulo binário (valor saliente ou valor não saliente) atribuído a todos os pixels. A variável P(li) denota a probabilidade de um determinado pixel xireceber um rótulo específico li, indicando a probabilidade de o pixel xiser saliência. No início, P(1) = Sie P(0) = 1 - Si, onde Sidenota o valor de saliência no pixel xidentro do mapa de saliência fundido Sθi,j(li,l j) é o potencial pareado, definido da seguinte forma.

Equation 4 (3)

Entre eles, se lilj, então μ(li,l j) = 1, caso contrário μ(li,l j) = 0. O cálculo de θi,j envolve a utilização de dois núcleos, onde o kernel inicial é dependente tanto da posição do pixel P quanto da intensidade do pixel I. Isso resulta na proximidade de pixels com cores semelhantes exibindo valores de saliência comparáveis. Os dois parâmetros, σα e σβ, regulam o quanto a similaridade de cores e a proximidade espacial influenciam o resultado. O objetivo do segundo núcleo é eliminar pequenas regiões isoladas. A minimização da energia é obtida através da filtragem de alta dimensão, que agiliza o campo médio da distribuição de Campo Aleatório Condicional (CRF). Após a computação, o mapa saliente denotado como Scrf exibe maior coerência espacial e contorno em relação aos objetos salientes detectados.

Configurações experimentais
Neste artigo, uma rede profunda para detecção de alvos salientes baseada na rede neural VGG16 é construída usando Python. O modelo proposto é comparado com outros métodos usando os conjuntos de dados SOD20 e ECSSD21 . O banco de dados de imagens SOD é conhecido por seus planos de fundo complexos e confusos, semelhança de cores entre primeiro plano e plano de fundo e tamanhos de objetos pequenos. A cada imagem neste conjunto de dados é atribuído um valor verdadeiro rotulado manualmente para avaliação de desempenho quantitativa e qualitativa. Por outro lado, o conjunto de dados ECSSD consiste principalmente de imagens provenientes da Internet, apresentando cenas naturais mais complexas e realistas com baixo contraste entre o fundo da imagem e objetos salientes.

Os índices de avaliação utilizados para comparar o modelo neste trabalho incluem a curva de Precisão-Recordação, Fβe EMAE, comumente utilizados. Para avaliar quantitativamente o mapa de saliência predito, a curva de Precision-Recall (P-R)22 é empregada alterando o limiar de 0 para 255 para binarizar o mapa de saliência. Fβé uma métrica de avaliação abrangente, calculada com as equações de precisão e recordação derivadas do mapa saliente binarizado e um mapa de valores verdadeiros.

Equation 5 (4)

onde β é o parâmetro de peso para ajustar a precisão e a recall, definindo β2 = 0,3. O cálculo de EMAEé equivalente ao cálculo do erro absoluto médio entre o mapa de saliência resultante e o mapa verdade terrestre, conforme definido pela expressão matemática subsequente:

Equation 6 (5)

Deixe Ts(u,v) denotar o valor extraído dos pixels do mapa saliente (u,v) e deixe TG(u,v) denotar o valor correspondente dos pixels verdadeiros do mapa (u,v).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Arranjo e procedimento experimental

  1. Carregue o modelo VGG16 pré-treinado.
    Observação : a primeira etapa é carregar o modelo VGG16 pré-treinado da biblioteca Keras6.
    1. Para carregar um modelo VGG16 pré-treinado em Python usando bibliotecas populares de aprendizado profundo como o PyTorch (consulte Tabela de Materiais), siga estas etapas gerais:
      1. Importar tocha. Importe torchvision.models como modelos.
      2. Carregue o modelo VGG16 pré-treinado. vgg16_model = models.vgg16(pretreined=True).
      3. Certifique-se de que o resumo do modelo VGG16 é "print(vgg16_model)".
  2. Defina os modelos DCL e DEDN.
    1. Para o pseudocódigo do algoritmo DCL, forneça Input: Image dataset SOD e Output: Trained DCL model.
      1. Inicialize o modelo DCL com a rede de backbone VGG16.
      2. Pré-processar o conjunto de dados da imagem D (por exemplo, redimensionar, normalizar).
      3. Divida o conjunto de dados em conjuntos de treinamento e validação.
      4. Defina a função de perda para treinar o modelo DCL (por exemplo, entropia cruzada binária).
      5. Defina os hiperparâmetros para treinamento: Taxa de aprendizado (0,0001), Número de épocas de treinamento definidas (50), Tamanho do lote é (8), Otimizador (Adam).
      6. Treinar o modelo DCL: para cada época no número definido de épocas, faça para cada lote no conjunto de treinamento. Insira o seguinte:
        1. Passagem direta: Alimente imagens em lote para o modelo DCL. Calcule a perda usando os mapas de saliência previstos e mapas de verdade terrestres.
        2. Passagem para trás: atualize os parâmetros do modelo usando a extremidade de descida de gradiente. Calcule a perda de validação e outras métricas de avaliação no final do conjunto de validação.
      7. Salve o modelo DCL treinado.
      8. Retorne o modelo DCL treinado.
    2. Para pseudo-código para o algoritmo DEDN, entrada: Conjunto de dados de imagem (X), Mapas de saliência da verdade terrestre (Y), Número de iterações de treinamento (N).
      1. Para a Rede de Codificadores, certifique-se de que o codificador seja baseado no esqueleto VGG16 com modificações (conforme mencionado abaixo).
        Observação : encoder_input = Input(shape=input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='same')(encoder_input)
        encoder_pool1 = MaxPooling2D((2, 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(encoder_pool1)
        encoder_pool2 = MaxPooling2D((2, 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool2)
        encoder_pool3 = MaxPooling2D((2, 2))(encoder_conv3)
      2. Para a rede do decodificador, certifique-se de que o decodificador seja baseado no esqueleto VGG16 com modificações (conforme mencionado abaixo).
        NOTA: decoder_conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool3)
        decoder_upsample1 = UpSampling2D((2, 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(decoder_upsample1)
        decoder_upsample2 = UpSampling2D((2, 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
        decoder_upsample3 = UpSampling2D((2, 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), activation='sigmoid', padding='same')(decoder_upsample3)
    3. Defina o modelo DEDN. modelo = Modelo (entradas = encoder_input, saídas = decoder_output).
    4. Compile o modelo. model.compile (otimizador = adam, perda = binary_crossentropy).
    5. Selecione o loop Treinamento.
      NOTA: Para iteração no intervalo(N): # Selecione aleatoriamente um lote de imagens e mapas de verdade terrestres; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size).
      1. Treine o modelo no lote. perda = model.train_on_batch(batch_X, batch_Y). Imprima a perda para monitoramento.
    6. Salve o modelo treinado. model.save ('dedn_model.h5').
  3. Combinar.
    1. Combine as saídas das redes DCL e DEDN e refine o mapa de saliência usando um modelo de campo aleatório condicional (CRF) totalmente conectado.

2. Processamento de imagens

  1. Clique no código de execução para abrir a interface GUI (Figura 4).
  2. Clique na imagem aberta para selecionar o caminho e, assim, a imagem a ser detectada.
  3. Clique na imagem de exibição para exibir a imagem que foi selecionada para detecção.
  4. Clique em iniciar detecção para detectar a imagem selecionada.
    NOTA: O resultado da detecção aparecerá com a imagem detectada, ou seja, o resultado do objeto saliente (Figura 5).
  5. Clique em selecionar o caminho de salvamento para salvar os resultados da imagem da detecção de objeto saliente.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Este estudo introduz uma rede neural profunda de ponta a ponta composta por duas redes complementares: uma rede multi-escala totalmente convolucional em nível de pixel e uma rede codificadora-decodificadora profunda. A primeira rede integra semântica contextual para derivar contrastes visuais de mapas de feição em várias escalas, abordando o desafio de campos receptivos fixos em redes neurais profundas em diferentes camadas. A segunda rede utiliza recursos de imagem profunda e superficial para mitigar o problema de limites borrados em objetos de destino. Finalmente, um modelo de campo aleatório condicional (CRF) totalmente conectado é aplicado para melhorar a coerência espacial e os contornos do mapa de saliência.

O estudo realiza uma comparação qualitativa e quantitativa entre o algoritmo proposto e dez algoritmos existentes na área. Resultados experimentais demonstram a eficácia do algoritmo proposto em aumentar a precisão da detecção de objetos significativos. Além disso, o algoritmo mostra potencial aplicabilidade em tarefas visuais de potência, oferecendo perspectivas promissoras em vários ambientes complexos dentro do domínio de redes elétricas inteligentes.

Experimentos de ablação
A presente investigação executou uma série de experimentos de ablação no banco de dados SOD para avaliar a eficácia do algoritmo. Os resultados desses experimentos estão detalhados na Tabela 1. (1) As métricas de avaliação utilizadas para comparar o modelo são a curva de Precisão-Recordação22, Fβe EMAE. Os resultados da Tabela 1 (nº 1) mostram que a remoção do modelo DCL do algoritmo causa uma diminuição no valor de Fβe um aumento no valor de E MAE. A observação acima sugere que as Camadas Convolucionais Dinâmicas (DCL) podem ter a capacidade de reforçar a eficácia de redes neurais profundas integrando campos receptivos dinâmicos em diversas camadas, o que, por sua vez, pode aumentar o contraste visual de mapas de feições multiescalares. (2) A partir da Tabela 1 (No.2), podemos observar que o algoritmo deste trabalho apenas exclui a estrutura da DEDN, comparando com o módulo completo da Tabela 1 (No.3), o valor F_β na Tabela 1 (No.2) diminui e o valor E_MAE aumenta, o que indica que a DEDN pode efetivamente e com precisão localizar a proeminência, aumentar o campo receptivo, e reter as informações detalhadas da imagem, reforçando os limites do destaque.

A Figura 6 apresenta os resultados da visualização do experimento de ablação. As imagens são organizadas da esquerda para a direita, mostrando a imagem original, o resultado do algoritmo DCL, o resultado do algoritmo DEDN, o algoritmo proposto neste artigo e a imagem de verdade terrestre correspondente. Após uma inspeção mais detalhada da Figura 6, é evidente que o algoritmo DCL tende a descrever o limite do alvo ao detectar imagens no banco de dados SOD, mas se esforça para filtrar efetivamente o plano de fundo. O algoritmo DEDN, por outro lado, fortalece o limite de destino, mas enfrenta desafios na supressão de informações de redundância em segundo plano. Em contraste, o algoritmo proposto neste artigo combina os pontos fortes desses dois algoritmos de maneira complementar, destacando efetivamente o alvo enquanto suprime informações de redundância de fundos complexos. Os resultados deste artigo superam os de qualquer algoritmo isoladamente.

Comparação com outros algoritmos avançados
Para avaliar o desempenho do algoritmo proposto, uma análise comparativa foi conduzida com onze métodos proeminentes de detecção de objetos salientes, a saber: GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 e DCL11. Entre eles, GMR23, GS24, SF25, PD26, SS27 e DRFI28 são métodos tradicionais de detecção de saliência não supervisionados de bom desempenho comumente empregados como benchmarks por muitos modelos de saliência profunda. Os quatro métodos restantes utilizam redes neurais convolucionais profundas e demonstraram desempenho superior em suas respectivas pesquisas bibliográficas. As métricas de avaliação empregadas para este estudo incluem curvas PR, valores máximos da medida F e erro absoluto médio (MAE). Os conjuntos de dados de teste selecionados compreendem conjuntos de dados SOD e ECSSD.

Comparação quantitativa
A Figura 7 ilustra as curvas de evocação de precisão (RP) comparando o algoritmo proposto neste estudo com outros 10 métodos proeminentes de detecção de objetos salientes nos conjuntos de dados de imagens publicamente disponíveis SOD e ECSSD. As curvas indicam claramente que o algoritmo proposto neste estudo supera os outros 10 algoritmos, validando assim o desempenho de detecção superior do método apresentado neste artigo. De particular destaque é a capacidade deste algoritmo de sustentar alta precisão mesmo quando o recall se aproxima de 1, indicando sua segmentação precisa de objetos visualmente salientes, garantindo sua integridade. A Tabela 2 fornece uma comparação quantitativa dos métodos nos conjuntos de dados de teste SOD e ECSSD, revelando que nosso algoritmo alcança melhor desempenho em termos de medida F máxima (Fβ) e erro absoluto médio (EMAE), atribuídos principalmente à combinação complementar da rede DCL e da rede DEDN.

Comparação qualitativa
Além disso, foi realizada uma avaliação qualitativa para justapor os resultados visuais das técnicas analisadas, conforme ilustrado na Figura 8. Essas figuras mostram uma sequência de imagens dispostas da esquerda para a direita, começando pelas imagens originais, seguidas pelas GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 e DCL11, o algoritmo proposto neste artigo e o mapa Ground-truth.

Na Figura 8A, uma comparação qualitativa no conjunto de dados SOD é apresentada. É evidente que a imagem original na coluna 1 exibe uma distribuição de cores relativamente semelhante entre os elementos de fundo e primeiro plano. Além disso, o primeiro e o terceiro mapas de saliência apresentam uma textura de fundo mais intrincada, potencialmente impedindo a detecção do objeto saliente. O algoritmo delineado neste estudo mostra uma melhora significativa na detecção de objetos salientes em ambientes complexos, superando o desempenho de outros algoritmos existentes. A imagem inicial na coluna 1, particularmente a segunda imagem, contém ramos de fundo que estão misturados com o animal de primeiro plano, representando um desafio para avaliações corretas do objeto de primeiro plano. O algoritmo apresentado neste estudo aborda com sucesso a questão da interferência de fundo e efetivamente destaca a região do objeto em primeiro plano. O experimento demonstra que o algoritmo proposto alcança alta precisão e precisão no tratamento de imagens com fundos complexos.

Na Figura 8B, uma comparação qualitativa dentro do conjunto de dados ECSSD é apresentada, mostrando os resultados de contraste visual de vários métodos de detecção de objetos salientes. Os resultados indicam que o algoritmo proposto alcança desempenho de detecção superior em cenas naturais diversas e complexas. Essas imagens de cenas naturais englobam cenários como objetos salientes em contato com limites de imagem na primeira e segunda imagens e baixo contraste e semelhança de cores entre o primeiro plano e o fundo na terceira imagem. Através desses resultados visualizados, o algoritmo proposto aqui efetivamente destaca objetos salientes completos, garantindo limites de objeto claros. Independentemente da escala de objetos salientes, sejam eles grandes ou pequenos, o algoritmo exibe consistentemente alta precisão de segmentação, validando sua eficácia. Além disso, comparado a outros métodos, o algoritmo apresentado neste estudo demonstra maior robustez, atenuando falsas detecções em regiões de saliência (ou regiões de fundo).

Figure 1
Figura 1: Quadro geral da estrutura. Representação esquemática do modelo proposto. Clique aqui para ver uma versão maior desta figura.

Figure 2
Figura 2: O modelo DCL em nível de pixel. Um modelo DCL em nível de pixel é usado dentro da arquitetura do VGG16, uma rede neural convolucional profunda. As quatro camadas iniciais de pool máximo são interconectadas com três núcleos. Clique aqui para ver uma versão maior desta figura.

Figure 3
Figura 3: Modelo de rede de codificação-decodificação (DEDN). Recursos profundos são fundidos com recursos rasos inspirados no trabalho de detecção de bordas, propondo o modelo de rede codificador-decodificador (DEDN). Clique aqui para ver uma versão maior desta figura.

Figure 4
Figura 4: A interface GUI. O código é executado para gerar uma interface GUI para facilitar a operação. Clique aqui para ver uma versão maior desta figura.

Figure 5
Figura 5: Demonstração da interface GUI. Apresentação da interface GUI para fácil comparação dos resultados da imagem de teste. Clique aqui para ver uma versão maior desta figura.

Figure 6
Figura 6: Resultados da visualização do experimento de ablação. (A) A imagem original, (B) o algoritmo DCL, (C) o algoritmo DEDN, (D) o algoritmo usado no presente estudo e (E) a imagem de verdade fundamental correspondente são mostrados da esquerda para a direita. Como pode ser visto na Figura 6, (B) o algoritmo DCL só pode descrever o limite de destino ao detectar imagens, e o plano de fundo é difícil de filtrar. (C) O algoritmo DEDN tem o efeito de fortalecer o limite de destino, mas é igualmente difícil suprimir as informações de redundância de fundo; enquanto (D) o algoritmo neste artigo combina esses dois algoritmos de forma complementar, destacando o alvo enquanto suprime as informações de redundância do fundo complexo. Clique aqui para ver uma versão maior desta figura.

Figure 7
Figura 7: Curva P-R. (A) as curvas P-R estão em bancos de dados SOD e (B) as curvas P-R estão em bancos de dados ECSSD, respectivamente. As curvas P-R do algoritmo deste estudo em ambos (A) e (B) são maiores do que as dos outros 10 algoritmos, o que comprova que o algoritmo deste trabalho tem alta acurácia em relação a esses 10 algoritmos. Clique aqui para ver uma versão maior desta figura.

Figure 8
Figura 8: Comparação qualitativa. Comparação qualitativa de diferentes algoritmos de detecção de objetos salientes nos bancos de dados SOD (A) e ECSSD (B), respectivamente. Asimagens de entrada originais são apresentadas da esquerda para a direita, GMR, GS, SF, PD, SS, DRFI, MDF, ELD, DHS e DCL, o algoritmo proposto neste estudo e o mapa terra-verdade. Como visto em (A), o algoritmo delineado fornece uma melhoria significativa na detecção de objetos salientes em ambientes complexos, superando o desempenho de outros algoritmos existentes. Como pode ser visto em (B), o algoritmo proposto neste estudo tem maior robustez em comparação com outros métodos, pois reduz a falsa detecção de regiões salientes (ou de fundo). Clique aqui para ver uma versão maior desta figura.

Não. Configuração do módulo Fβ EMAE
Nº 1 Removendo somente DCL 0.835 0.117
NO.2 Removendo somente DEDN 0.832 0.126
NO.3 Módulo Completo 0.854 0.110

Tabela 1: Resultados dos experimentos de ablação.

Modelo TORRÃO ECSSD
Fβ EMAE Fβ EMAE
GMR 0.740 0.148 0.476 0.189
GS 0.677 0.188 0.355 0.344
SF 0.779 0.150 0.309 0.230
PD 0.720 0.162 0.358 0.248
ß 0.574 0.225 0.268 0.344
DRFI 0.801 0.127 0.516 0.166
MDF 0.709 0.150 0.832 0.105
IDADE 0.737 0.154 0.869 0.078
DHS 0.812 0.127 0.907 0.059
DCL 0.786 0.131 0.901 0.068
Este estudo 0.854 0.110 0.938 0.044

Tabela 2: Os valores máximos de medida F (Fβ) e MAE (Erro Absoluto Médio) de vários algoritmos em dois conjuntos de dados de imagem.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

O artigo apresenta uma rede neural profunda de ponta a ponta projetada especificamente para a detecção de objetos salientes em ambientes complexos. A rede é composta por dois componentes interconectados: uma rede multiescala totalmente convolucional (DCL) em nível de pixel e uma rede codificadora-decodificadora profunda (DEDN). Esses componentes trabalham sinergicamente, incorporando semântica contextual para gerar contrastes visuais dentro de mapas de feição em multiescala. Além disso, eles aproveitam recursos de imagem profunda e superficial para melhorar a precisão da delimitação do limite do objeto. A integração de um modelo de Campo Aleatório Condicional (CRF) totalmente conectado aumenta ainda mais a coerência espacial dos mapas de saliência e delineamento de contorno.

Para atingir esse objetivo, duas redes profundas, a Deep Context Learning (DCL) e a Deep Encoder-Decoder Network (DEDN), foram construídas com base na arquitetura VGG16. Conforme explicado na etapa operacional 1.2, as imagens de entrada processadas através da DCL produzem mapas de feição de escalas variadas, caracterizados por campos receptivos distintos. Esses mapas são posteriormente combinados com semântica contextual, gerando mapas de saliência com dimensões W × H, possuindo coerência interdimensional. Especificamente, o DCL11 utiliza um par de camadas convolucionais, cada uma equipada com um kernel 7 x 7, para substituir a camada de pool final da rede VGG16 original. Essa modificação é crucial na preservação da informação espacial dentro dos mapas de feição. Em colaboração com a semântica contextual, resulta em mapas de saliência dotados de coerência interdimensional.

Simultaneamente, a Deep Encoder-Decoder Network (DEDN)14 emprega 3 x 3 camadas convolucionais do kernel em sua seção decodificadora, seguidas por uma camada convolucional solitária após o último módulo de decodificação. Essa integração de feições profundas e rasas pelo DEDN facilita a geração de mapas de saliência com dimensões espaciais W × H, abordando desafios associados a limites de objetos indistintos. A pesquisa apresentada neste artigo introduz uma técnica pioneira para detecção de objetos salientes, conforme explicado na etapa operacional 1.3. Ele amalgama os modelos DCL e DEDN em uma estrutura de rede unificada por meio de um processo de treinamento que aprende os pesos dessas duas redes profundas e, posteriormente, mescla os mapas de saliência adquiridos. Um refinamento adicional é obtido aplicando Campos Aleatórios Condicionais (CRF) de maneira totalmente conectada. O objetivo primário desse refinamento é melhorar a consistência espacial e a localização do contorno.

Ambas as redes foram aprimoradas usando a arquitetura VGG16 como seu backbone de rede neural, fundindo-se através de Campos Aleatórios Condicionais (CRF). Enquanto o algoritmo proposto demonstra considerável potencial no domínio da detecção de alvos em ambientes intrincados, futuras iniciativas de pesquisa serão direcionadas para melhorar sua eficiência computacional. O objetivo é alcançar uma velocidade de processamento superior sem comprometer o desempenho da detecção.

O algoritmo proposto passa por uma extensa avaliação contra 10 algoritmos contemporâneos nas bases de dados SOD20 e ECSSD21 . Os resultados da avaliação indicam que o algoritmo proposto supera outras abordagens em termos de precisão e acurácia, estabelecendo sua eficácia na detecção de objetos salientes em ambientes complexos. Além disso, o algoritmo se mostra promissor para a transferibilidade para tarefas visuais no campo de sistemas elétricos de potência. Ele tem um potencial significativo para aplicações como a segmentação de isoladores e detecção precoce de riscos de incêndio em ambientes complexos dentro de redes elétricas inteligentes.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Os autores não têm nada a revelar.

Acknowledgments

Este trabalho é apoiado pelo 2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Program (Número do Projeto:24A520053). Este estudo também é apoiado pela Criação Especializada e Integração Característica Demonstração Construção Curso na Província de Henan.

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

Engenharia Edição 202 ambientes complexos redes neurais profundas de ponta a ponta detecção de objetos salientes
Rede neural profunda de ponta a ponta para detecção de objetos salientes em ambientes complexos
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter