Waiting
로그인 처리 중...

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Réseau neuronal profond de bout en bout pour la détection d’objets saillants dans des environnements complexes

Published: December 15, 2023 doi: 10.3791/65554

Summary

Le présent protocole décrit un nouvel algorithme de détection d’objets saillants de bout en bout. Il exploite les réseaux neuronaux profonds pour améliorer la précision de la détection d’objets saillants dans des contextes environnementaux complexes.

Abstract

La détection d’objets saillants est devenue un domaine d’intérêt en plein essor dans le domaine de la vision par ordinateur. Cependant, les algorithmes dominants présentent une précision réduite lorsqu’ils sont chargés de détecter des objets saillants dans des environnements complexes et à multiples facettes. À la lumière de cette préoccupation urgente, cet article présente un réseau neuronal profond de bout en bout qui vise à détecter des objets saillants dans des environnements complexes. L’étude présente un réseau neuronal profond de bout en bout qui vise à détecter des objets saillants dans des environnements complexes. Comprenant deux composants interdépendants, à savoir un réseau convolutif complet multi-échelle au niveau du pixel et un réseau encodeur-décodeur profond, le réseau proposé intègre une sémantique contextuelle pour produire un contraste visuel sur des cartes de caractéristiques multi-échelles tout en utilisant des caractéristiques d’image profondes et superficielles pour améliorer la précision de l’identification des limites d’objets. L’intégration d’un modèle de champ aléatoire conditionnel (CRF) entièrement connecté améliore encore la cohérence spatiale et la délimitation des contours des cartes saillantes. L’algorithme proposé est évalué de manière approfondie par rapport à 10 algorithmes contemporains sur les bases de données SOD et ECSSD. Les résultats de l’évaluation démontrent que l’algorithme proposé surpasse les autres approches en termes de précision et d’exactitude, établissant ainsi son efficacité dans la détection d’objets saillants dans des environnements complexes.

Introduction

La détection d’objets saillants imite l’attention visuelle humaine, identifiant rapidement les régions clés de l’image tout en supprimant les informations d’arrière-plan. Cette technique est largement utilisée comme outil de prétraitement dans des tâches telles que le recadrage d’image1, la segmentation sémantique2 et l’édition d’image3. Il rationalise les tâches telles que le remplacement de l’arrière-plan et l’extraction du premier plan, améliorant ainsi l’efficacité et la précision de l’édition. De plus, il facilite la segmentation sémantique en améliorant la localisation des cibles. Le potentiel de la détection d’objets saillants pour améliorer l’efficacité du calcul et conserver la mémoire souligne ses importantes perspectives de recherche et d’application.

Au fil des ans, la détection d’objets saillants a évolué, passant des algorithmes traditionnels initiaux à l’intégration d’algorithmes d’apprentissage profond. L’objectif de ces avancées a été de réduire l’écart entre la détection d’objets saillants et les mécanismes visuels humains. Cela a conduit à l’adoption de modèles de réseaux convolutifs profonds pour l’étude de la détection d’objets saillants. Borji et al.4 ont résumé et généralisé la plupart des algorithmes traditionnels classiques, qui reposent sur les caractéristiques sous-jacentes de l’image. Malgré une certaine amélioration de la précision de la détection, l’expérience manuelle et la cognition continuent de poser des défis pour la détection d’objets saillants dans des environnements complexes.

L’utilisation des réseaux neuronaux convolutifs (CNN) est répandue dans le domaine de la détection d’objets saillants. Dans ce contexte, les réseaux neuronaux convolutifs profonds sont utilisés pour les mises à jour du poids grâce à l’apprentissage autonome. Des réseaux neuronaux convolutifs ont été utilisés pour extraire la sémantique contextuelle des images grâce à l’utilisation de couches convolutives et de pooling en cascade, permettant l’apprentissage de caractéristiques d’images complexes à des niveaux supérieurs, qui ont une plus grande capacité de discrimination et de caractérisation pour la détection d’objets saillants dans différents environnements.

En 2016, les réseaux neuronaux entièrement convolutifs5 ont gagné en popularité en tant qu’approche populaire pour la détection d’objets saillants, sur la base de laquelle les chercheurs ont commencé la détection d’objets saillants au niveau du pixel. De nombreux modèles sont généralement construits sur des réseaux existants (par exemple, VGG166, ResNet7), visant à améliorer la représentation de l’image et à renforcer l’effet de la détection des bords.

Liu et al.8 ont utilisé un réseau neuronal déjà entraîné comme cadre pour calculer l’image globalement, puis ont affiné la limite de l’objet à l’aide d’un réseau hiérarchique. La combinaison des deux réseaux forme le réseau final de saillance profonde. Cela a été accompli en introduisant la carte saillante précédemment acquise dans le réseau en tant que connaissance préalable de manière répétitive. Zhang et al.9 ont fusionné efficacement les informations sémantiques et spatiales d’images à l’aide de réseaux profonds avec un transfert d’informations bidirectionnel de couches superficielles à profondes et profondes à superficielles, respectivement. La détection d’objets saillants à l’aide d’un modèle d’apprentissage mutuel en profondeur a été proposée par Wu et al.10. Le modèle utilise des informations de premier plan et de périphérie dans un réseau neuronal convolutif pour faciliter le processus de détection. Li et al.11 ont utilisé l’algorithme des trous des réseaux neuronaux pour relever le défi de la fixation des champs réceptifs de diverses couches dans les réseaux neuronaux profonds dans le contexte de la détection d’objets saillants. Cependant, la segmentation super-pixel est utilisée pour l’acquisition des bords des objets, ce qui augmente considérablement l’effort de calcul et le temps de calcul. Ren et al.12 ont conçu un réseau encodeur-décodeur multi-échelle pour détecter les objets saillants et ont utilisé des réseaux neuronaux convolutifs pour combiner efficacement des caractéristiques profondes et superficielles. Bien que le défi du brouillage des frontières dans la détection d’objets soit résolu par cette approche, la fusion multi-échelle des informations entraîne inévitablement des exigences de calcul accrues.

La revue de la littérature13 propose que la détection de saillance, des méthodes traditionnelles aux méthodes d’apprentissage profond, soit résumée, et que l’évolution de la détection de cibles de saillance depuis ses origines jusqu’à l’ère de l’apprentissage profond soit très clairement visible. Divers modèles de détection d’objets saillants basés sur RVB-D avec de bonnes performances ont été proposés dans la littérature14. La littérature ci-dessus passe en revue et classe les différents types d’algorithmes de détection d’objets saillants et décrit leurs scénarios d’application, les bases de données utilisées et les mesures d’évaluation. Cet article fournit également une analyse qualitative et quantitative des algorithmes proposés concernant leurs bases de données suggérées et leurs métriques d’évaluation.

Tous les algorithmes ci-dessus ont obtenu des résultats remarquables dans des bases de données publiques, fournissant une base pour la détection d’objets saillants dans des environnements complexes. Bien qu’il y ait eu de nombreuses réalisations de recherche dans ce domaine, tant au pays qu’à l’étranger, il reste encore quelques problèmes à régler. (1) Les algorithmes traditionnels d’apprentissage non profond ont tendance à avoir une faible précision en raison de leur dépendance à des caractéristiques étiquetées manuellement telles que la couleur, la texture et la fréquence, qui peuvent être facilement affectées par l’expérience subjective et la perception. Par conséquent, la précision de leurs capacités de détection d’objets saillants est diminuée. La détection d’objets saillants dans des environnements complexes à l’aide d’algorithmes traditionnels non deep learning est difficile en raison de leur difficulté à gérer des scénarios complexes. (2) Les méthodes conventionnelles de détection d’objets saillants présentent une précision limitée en raison de leur dépendance à des caractéristiques étiquetées manuellement telles que la couleur, la texture et la fréquence. De plus, la détection au niveau de la région peut être coûteuse en calcul, ignorant souvent la cohérence spatiale, et a tendance à mal détecter les limites des objets. Ces problèmes doivent être résolus pour améliorer la précision de la détection des objets saillants. (3) La détection d’objets saillants dans des environnements complexes représente un défi pour la plupart des algorithmes. La plupart des algorithmes de détection d’objets saillants sont confrontés à de sérieux défis en raison de l’environnement de détection d’objets saillants de plus en plus complexe avec des arrière-plans variables (couleurs d’arrière-plan et de premier plan similaires, textures d’arrière-plan complexes, etc.), de nombreuses incertitudes telles que des tailles d’objets de détection incohérentes et la définition peu claire des bords de premier plan et d’arrière-plan.

La plupart des algorithmes actuels présentent une faible précision dans la détection d’objets saillants dans des environnements complexes avec des couleurs d’arrière-plan et de premier plan similaires, des textures d’arrière-plan complexes et des bords flous. Bien que les algorithmes actuels d’objets saillants basés sur l’apprentissage profond démontrent une plus grande précision que les méthodes de détection traditionnelles, les caractéristiques d’image sous-jacentes qu’ils utilisent ne parviennent toujours pas à caractériser efficacement les caractéristiques sémantiques, ce qui laisse place à l’amélioration de leurs performances.

En résumé, cette étude propose un réseau neuronal profond de bout en bout pour un algorithme de détection d’objets saillants, visant à améliorer la précision de la détection d’objets saillants dans des environnements complexes, à améliorer les bords cibles et à mieux caractériser les caractéristiques sémantiques. Les contributions de cet article sont les suivantes : (1) Le premier réseau utilise VGG16 comme réseau de base et modifie ses cinq couches de mise en commun à l’aide de l’algorithme des trous11. Le réseau neuronal entièrement convolutif multi-échelle au niveau du pixel apprend les caractéristiques de l’image à différentes échelles spatiales, relevant le défi des champs récepteurs statiques à travers différentes couches de réseaux neuronaux profonds et améliorant la précision de détection dans des zones importantes du domaine. (2) Les efforts récents pour améliorer la précision de la détection d’objets saillants se sont concentrés sur l’exploitation de réseaux neuronaux plus profonds, tels que VGG16, pour extraire à la fois les caractéristiques de profondeur du réseau d’encodeur et les caractéristiques superficielles du réseau de décodeur. Cette approche améliore efficacement la précision de détection des limites d’objets et améliore les informations sémantiques, en particulier dans les environnements complexes avec des arrière-plans variables, des tailles d’objets incohérentes et des frontières indistinctes entre le premier plan et l’arrière-plan. (3) Des efforts récents pour améliorer la précision de la détection d’objets saillants ont mis l’accent sur l’utilisation de réseaux plus profonds, y compris VGG16, pour extraire des caractéristiques profondes du réseau de codeur et des caractéristiques peu profondes du réseau de décodeur. Cette approche a démontré une meilleure détection des limites d’objets et une plus grande information sémantique, en particulier dans des environnements complexes avec des arrière-plans, des tailles d’objets et des frontières indistinctes entre le premier plan et l’arrière-plan. De plus, l’intégration d’un modèle de champ aléatoire conditionnel (CRF) entièrement connecté a été mise en œuvre pour augmenter la cohérence spatiale et la précision des contours des cartes saillantes. L’efficacité de cette approche a été évaluée sur des ensembles de données SOD et ECSSD avec des antécédents complexes et s’est avérée statistiquement significative.

Travaux connexes
Fu et al.15 ont proposé une approche conjointe utilisant le RVB et l’apprentissage profond pour la détection d’objets saillants. Lai et al.16 ont introduit un modèle faiblement supervisé pour la détection d’objets saillants, apprenant la saillance à partir d’annotations, en utilisant principalement des étiquettes griffonnées pour gagner du temps d’annotation. Bien que ces algorithmes aient présenté une fusion de deux réseaux complémentaires pour la détection d’objets saillants, ils manquent d’une étude approfondie de la détection de saillance dans des scénarios complexes. Wang et al.17 ont conçu une fusion itérative en deux modes des caractéristiques du réseau neuronal, à la fois ascendant et descendant, optimisant progressivement les résultats de l’itération précédente jusqu’à la convergence. Zhang et al.18 ont fusionné efficacement les informations sémantiques et spatiales d’images à l’aide de réseaux profonds avec un transfert d’informations bidirectionnel de couches peu profondes à profondes et de couches profondes à superficielles, respectivement. La détection d’objets saillants à l’aide d’un modèle d’apprentissage mutuel en profondeur a été proposée par Wu et al.19. Le modèle utilise des informations de premier plan et de périphérie dans un réseau neuronal convolutif pour faciliter le processus de détection. Ces modèles de détection d’objets saillants basés sur des réseaux neuronaux profonds ont atteint des performances remarquables sur des ensembles de données accessibles au public, permettant la détection d’objets saillants dans des scènes naturelles complexes. Néanmoins, la conception de modèles encore plus supérieurs reste un objectif important dans ce domaine de recherche et constitue la principale motivation de cette étude.

Cadre général
La représentation schématique du modèle proposé, telle qu’illustrée à la figure 1, est principalement dérivée de l’architecture VGG16, incorporant à la fois un réseau neuronal entièrement convolutif (DCL) multi-échelle au niveau du pixel et un réseau encodeur-décodeur profond (DEDN). Le modèle élimine toutes les couches finales de VGG16 entièrement connectées tout en tenant compte des dimensions d’image d’entrée de L × H. Le mécanisme opérationnel implique le traitement initial de l’image d’entrée via le DCL, facilitant l’extraction des caractéristiques profondes, tandis que les caractéristiques superficielles sont obtenues à partir des réseaux DEDN. La fusion de ces caractéristiques est ensuite soumise à un modèle de champ aléatoire conditionnel (CRF) entièrement connecté, augmentant la cohérence spatiale et la précision des contours des cartes de saillance produites.

Pour vérifier l’efficacité du modèle, il a été testé et validé sur des ensembles de données SOD20 et ECSSD21 avec des antécédents complexes. Une fois que l’image d’entrée a traversé le DCL, différentes cartes de caractéristiques d’échelle avec divers champs réceptifs sont obtenues, et la sémantique contextuelle est combinée pour produire une carte saillante W × H avec une cohérence interdimensionnelle. Le DCL utilise une paire de couches convolutives avec 7 x 7 noyaux pour remplacer la couche de mise en commun finale du réseau VGG16 d’origine, améliorant ainsi la préservation des informations spatiales dans les cartes de caractéristiques. Ceci, combiné à la sémantique contextuelle, produit une carte saillante W × H avec une cohérence interdimensionnelle. De même, le réseau Deep Encoder-Decoder (DEDN) utilise des couches convolutives avec 3 x 3 noyaux dans les décodeurs et une seule couche convolutive après le dernier module de décodage. En tirant parti des caractéristiques profondes et superficielles de l’image, il est possible de générer une carte saillante avec une dimension spatiale de W × H, répondant au défi des limites d’objets indistinctes. L’étude décrit une technique pionnière pour la détection d’objets saillants qui fusionne les modèles DCL et DEDN en un réseau unifié. Les poids de ces deux réseaux profonds sont appris par un processus d’entraînement, et les cartes de saillance résultantes sont fusionnées puis affinées à l’aide d’un champ aléatoire conditionnel (CRF) entièrement connecté. L’objectif principal de ce raffinement est d’améliorer la cohérence spatiale et la localisation des contours.

Réseau neuronal entièrement convolutif multi-échelle au niveau du pixel
L’architecture VGG16 se composait à l’origine de cinq couches de pooling, chacune avec une foulée de 2. Chaque couche de regroupement compresse la taille de l’image pour augmenter le nombre de canaux, obtenant ainsi plus d’informations contextuelles. Le modèle DCL s’inspire de la littérature13 et constitue une amélioration du cadre des VGG16. Dans cet article, un modèle DCL11 au niveau du pixel est utilisé, comme le montre la figure 2 dans l’architecture de VGG16, un réseau de neurones convolutifs profonds. Les quatre couches de regroupement maximales initiales sont interconnectées avec trois noyaux. Le premier noyau est 3 × 3 × 128 ; le deuxième noyau est 1 × 1 × 128 ; et le troisième noyau est 1 × 1 × 1. Pour obtenir une taille uniforme des cartes de caractéristiques après les quatre couches de regroupement initiales, connectées à trois noyaux, chaque taille étant équivalente à un huitième de l’image d’origine, la taille de pas du premier noyau connecté à ces quatre plus grandes couches de regroupement est définie sur 4, 2, 1 et 1, respectivement.

Pour préserver le champ récepteur d’origine dans les différents noyaux, l’algorithme des trous proposé dans la littérature11 est utilisé pour étendre la taille du noyau en ajoutant des zéros, maintenant ainsi l’intégrité du noyau. Ces quatre cartes de caractéristiques sont connectées au premier noyau avec des tailles d’étape différentes. Par conséquent, les cartes d’entités produites à l’étape finale possèdent des dimensions identiques. Les quatre cartes de caractéristiques constituent un ensemble de caractéristiques multi-échelles obtenues à partir d’échelles distinctes, chacune représentant des tailles variables de champs réceptifs. Les cartes de caractéristiques obtenues à partir des quatre couches intermédiaires sont concaténées avec la carte de caractéristiques ultime dérivée de VGG16, générant ainsi une sortie à 5 canaux. La sortie qui en résulte est ensuite soumise à un noyau 1 × 1 × 1 avec la fonction d’activation sigmoïde, produisant finalement la carte saillante (avec une résolution d’un huitième de l’image originale). L’image est suréchantillonnée et agrandie à l’aide d’une interpolation bilinéaire, ce qui garantit que l’image résultante, appelée carte de saillance, conserve une résolution identique à l’image initiale.

Réseau encodeur-décodeur profond
De même, le réseau VGG16 est utilisé comme réseau principal. VGG16 se caractérise par un faible nombre de canaux de carte de caractéristiques peu profonds mais à haute résolution et un nombre élevé de canaux de caractéristiques profonds mais à faible résolution. Le regroupement des couches et le sous-échantillonnage augmentent la vitesse de calcul du réseau profond au prix d’une réduction de la résolution de sa carte de caractéristiques. Pour résoudre ce problème, suite à l’analyse de la littérature14, le réseau de codeurs est utilisé pour modifier la connectivité complète de la dernière couche de pooling dans le VGG16 d’origine. Cette modification consiste à le remplacer par deux couches convolutives à 7 × 7 noyaux (les noyaux convolutifs plus gros augmentent le champ réceptif). Les deux noyaux de convolution sont équipés d’une opération de normalisation (BN) et d’une unité linéaire modifiée (ReLU). Cet ajustement se traduit par une carte des caractéristiques de sortie de l’encodeur qui préserve mieux les informations de l’espace image.

Alors que l’encodeur améliore la sémantique d’image de haut niveau pour la localisation globale des objets saillants, le problème de flou des frontières de son objet saillant n’est pas efficacement amélioré. Pour résoudre ce problème, les caractéristiques profondes sont fusionnées avec des caractéristiques peu profondes, inspirées des travaux de détection des bords12, proposant le modèle de réseau encodeur-décodeur (DEDN) comme le montre la figure 3. L’architecture du codeur comprend trois noyaux interconnectés avec les quatre premiers, tandis que le décodeur améliore systématiquement la résolution de la carte des caractéristiques en utilisant les valeurs maximales récupérées à partir des couches de regroupement maximales.

Dans cette méthodologie innovante de détection d’objets saillants, pendant la phase de décodeur, une couche convolutive avec un noyau 3 × 3 est utilisée en combinaison avec une couche de normalisation par lots et une unité linéaire adaptée. À la fin du module de décodage final dans l’architecture du décodeur, une couche convolutive à canal unique est utilisée pour obtenir une carte saillante des dimensions spatiales W × H. La carte saillante est générée par une fusion collaborative du modèle encodeur-décodeur, donnant le résultat, et la fusion complémentaire des deux, c’est-à-dire la fusion complémentaire de l’information profonde et de l’information superficielle. Cela permet non seulement de localiser avec précision l’objet saillant et d’augmenter le champ réceptif, mais aussi de préserver efficacement les informations détaillées de l’image et de renforcer la limite de l’objet saillant.

Mécanisme d’intégration
L’architecture du codeur comprend trois noyaux, qui sont associés aux quatre couches de mise en commun maximales initiales du modèle VGG16. En revanche, le décodeur est intentionnellement formulé pour augmenter progressivement la résolution des cartes de caractéristiques acquises à partir des couches de suréchantillonnage en exploitant les valeurs maximales recueillies à partir des couches de regroupement correspondantes. Une couche convolutive utilisant un noyau 3 x 3, une couche de normalisation par lots et une unité linéaire modifiée sont ensuite utilisées dans le décodeur, suivies d’une couche convolutive à canal unique pour générer une carte saillante des dimensions W × H. Les poids des deux réseaux profonds sont appris par des cycles d’entraînement alternés. Les paramètres du premier réseau ont été maintenus fixes, tandis que les paramètres du second réseau ont été entraînés pendant un total de cinquante cycles. Au cours du processus, les poids de la carte de saillance (S1 et S2) utilisée pour la fusion sont mis à jour via un gradient aléatoire. La fonctionde perte 11 est :

Equation 1 (1)

Dans l’expression donnée, le symbole G représente la valeur étiquetée manuellement, tandis que W signifie l’ensemble complet des paramètres du réseau. Le poids βi sert de facteur d’équilibrage pour réguler la proportion de pixels saillants par rapport aux pixels non saillants dans le processus de calcul.

L’image I est caractérisée par trois paramètres : |Je|, |Je|- et |Je|+, qui représentent respectivement le nombre total de pixels, le nombre de pixels non saillants et le nombre de pixels saillants. Equation 2

Étant donné que les cartes saillantes obtenues à partir des deux réseaux ci-dessus ne tiennent pas compte de la cohérence des pixels voisins, un modèle de raffinement de saillance au niveau des pixels entièrement connecté CRF15 est utilisé pour améliorer la cohérence spatiale. L’équation d’énergie11 est la suivante, résolvant le problème d’étiquetage des pixels binaires.

Equation 3 (2)

L désigne l’étiquette binaire (valeur saillante ou valeur non saillante) attribuée à tous les pixels. La variable P(li) indique la probabilité qu’un pixel xidonné se voie attribuer une étiquette spécifique li, indiquant la probabilité que le pixel xisoit saillante. Au début, P(1) = Siet P(0) = 1 - Si, où Sidésigne la valeur de saillance au pixel xidans la carte de saillance fusionnée Sθi,j(li,l j) est le potentiel par paires, défini comme suit.

Equation 4 (3)

Parmi eux, si lilj, alors μ(li,l j) = 1, sinon μ(li,l j) = 0. Le calcul de θi,j implique l’utilisation de deux noyaux, où le noyau initial dépend à la fois de la position du pixel P et de l’intensité du pixel I. Il en résulte que la proximité de pixels de couleurs similaires présente des valeurs de saillance comparables. Les deux paramètres, σα et σ β, régulent la mesure dans laquelle la similitude des couleurs et la proximité spatiale influencent le résultat. L’objectif du deuxième noyau est d’éliminer les petites régions isolées. La minimisation de l’énergie est obtenue grâce à un filtrage de grande dimension, qui accélère le champ moyen de la distribution de champ aléatoire conditionnel (CRF). Lors du calcul, la carte saillante désignée Scrf présente une cohérence spatiale et un contour améliorés en ce qui concerne les objets saillants détectés.

Configurations expérimentales
Dans cet article, un réseau profond pour la détection de cibles saillantes basé sur le réseau neuronal VGG16 est construit à l’aide de Python. Le modèle proposé est comparé à d’autres méthodes utilisant les ensembles de données SOD20 et ECSSD21 . La base de données d’images SOD est connue pour ses arrière-plans complexes et encombrés, la similitude des couleurs entre le premier plan et l’arrière-plan et la petite taille des objets. Chaque image de cet ensemble de données se voit attribuer une valeur réelle étiquetée manuellement pour l’évaluation quantitative et qualitative des performances. D’autre part, l’ensemble de données ECSSD se compose principalement d’images provenant d’Internet, présentant des scènes naturelles plus complexes et réalistes avec un faible contraste entre l’arrière-plan de l’image et les objets saillants.

Les indices d’évaluation utilisés pour comparer le modèle dans le présent document comprennent la courbe de précision-rappel couramment utilisée, Fβet EMAE. Pour évaluer quantitativement la carte de saillance prédite, la courbe de rappel de précision (P-R)22 est utilisée en modifiant le seuil de 0 à 255 pour binariser la carte de saillance. Fβest une métrique d’évaluation complète, calculée avec les équations de précision et de rappel dérivées de la carte des saillies binarisées et d’une carte des valeurs réelles.

Equation 5 (4)

β est le paramètre de poids pour ajuster la précision et le rappel, en réglant β2 = 0,3. Le calcul de EMAEéquivaut au calcul de l’erreur absolue moyenne entre l’application de saillance résultante et l’application de vérité terrain, telle que définie par l’expression mathématique qui en résulte :

Equation 6 (5)

Soit Ts(u,v) la valeur extraite des pixels saillants de l’application (u,v) et TG(u,v) la valeur correspondante des vrais pixels de l’application (u,v).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Configuration et procédure expérimentales

  1. Chargez le modèle VGG16 pré-entraîné.
    REMARQUE : La première étape consiste à charger le modèle VGG16 pré-entraîné à partir de la bibliothèque Keras6.
    1. Pour charger un modèle VGG16 pré-entraîné en Python à l’aide de bibliothèques de Deep Learning populaires comme PyTorch (voir Table of Materials), procédez comme suit :
      1. Importer une torche. Importez torchvision.models en tant que modèles.
      2. Chargez le modèle VGG16 pré-entraîné. vgg16_model = models.vgg16(pretrained=True).
      3. Assurez-vous que le résumé du modèle VGG16 est « print(vgg16_model) ».
  2. Définissez les modèles DCL et DEDN.
    1. Pour le pseudo-code de l’algorithme DCL, fournissez Input : Image dataset SOD et Output : Trained DCL model.
      1. Initialisez le modèle DCL avec le réseau principal VGG16.
      2. Prétraiter le jeu de données d’image D (par exemple, redimensionnement, normalisation).
      3. Divisez le jeu de données en jeux d’entraînement et de validation.
      4. Définissez la fonction de perte pour l’entraînement du modèle DCL (par exemple, l’entropie croisée binaire).
      5. Définissez les hyperparamètres pour l’entraînement : Taux d’apprentissage (0,0001), Nombre d’époques d’entraînement défini (50), Taille du lot (8), Optimiseur (Adam).
      6. Entraîner le modèle DCL : pour chaque époque du nombre d’époques défini, effectuer pour chaque lot de l’ensemble d’apprentissage. Entrez les éléments suivants :
        1. Passe avant : Envoyez des images par lots au modèle DCL. Calculez la perte à l’aide des cartes de saillance prédites et des cartes de vérité terrain.
        2. Passe arrière : mettez à jour les paramètres du modèle à l’aide de la descente de gradient end. Calculez la perte de validation et d’autres métriques d’évaluation à la fin du jeu de validation.
      7. Enregistrez le modèle DCL entraîné.
      8. Retournez le modèle DCL entraîné.
    2. Pour le pseudo-code de l’algorithme DEDN, entrez : Jeu de données d’image (X), Cartes de saillance de la vérité terrain (Y), Nombre d’itérations d’entraînement (N).
      1. Pour le réseau d’encodeurs, assurez-vous que l’encodeur est basé sur le squelette VGG16 avec des modifications (comme mentionné ci-dessous).
        REMARQUE : encoder_input = Entrée(forme=input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='same')(encoder_input)
        encoder_pool1 = MaxPooling2D((2, 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(encoder_pool1)
        encoder_pool2 = MaxPooling2D((2, 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool2)
        encoder_pool3 = MaxPooling2D((2, 2))(encoder_conv3)
      2. Pour le réseau de décodeurs, assurez-vous que le décodeur est basé sur le squelette VGG16 avec des modifications (comme mentionné ci-dessous).
        REMARQUE : decoder_conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool3)
        decoder_upsample1 = Suréchantillonnage2D((2, 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(decoder_upsample1)
        decoder_upsample2 = UpSampling2D((2, 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
        decoder_upsample3 = UpSampling2D((2, 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), activation='sigmoïde', padding='même')(decoder_upsample3)
    3. Définissez le modèle DEDN. modèle = modèle (entrées = encoder_input, sorties = decoder_output).
    4. Compilez le modèle. model.compile (optimiseur = adam, perte = binary_crossentropy).
    5. Sélectionnez la boucle Entraînement.
      REMARQUE : Pour l’itération dans la plage (N) : # Sélectionnez au hasard un lot d’images et de cartes de vérité terrain ; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size).
      1. Entraîner le modèle sur le lot. perte = model.train_on_batch(batch_X, batch_Y). Imprimez la perte pour la surveillance.
    6. Enregistrez le modèle entraîné. model.save ('dedn_model.h5').
  3. Combiner.
    1. Combinez les sorties des réseaux DCL et DEDN et affinez la carte de saillance à l’aide d’un modèle de champ aléatoire conditionnel (CRF) entièrement connecté.

2. Traitement d’image

  1. Cliquez sur Exécuter le code pour afficher l’interface graphique (Figure 4).
  2. Cliquez sur ouvrir l’image pour sélectionner le chemin et donc l’image à détecter.
  3. Cliquez sur l’image d’affichage pour afficher l’image sélectionnée pour la détection.
  4. Cliquez sur démarrer la détection pour détecter l’image sélectionnée.
    REMARQUE : Le résultat de la détection apparaîtra avec l’image détectée, c’est-à-dire le résultat de l’objet saillant (Figure 5).
  5. Cliquez sur sélectionner le chemin d’enregistrement pour enregistrer les résultats de l’image de la détection d’objet saillant.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

Cette étude présente un réseau de neurones profonds de bout en bout comprenant deux réseaux complémentaires : un réseau entièrement convolutif multi-échelle au niveau du pixel et un réseau d’encodeur-décodeur profond. Le premier réseau intègre une sémantique contextuelle pour dériver des contrastes visuels à partir de cartes de caractéristiques multi-échelles, répondant au défi des champs récepteurs fixes dans les réseaux neuronaux profonds à travers différentes couches. Le deuxième réseau utilise à la fois des caractéristiques d’image profondes et superficielles pour atténuer le problème des limites floues dans les objets cibles. Enfin, un modèle de champ aléatoire conditionnel (CRF) entièrement connecté est appliqué pour améliorer la cohérence spatiale et les contours de la carte de saillance.

L’étude effectue une comparaison qualitative et quantitative entre l’algorithme proposé et dix algorithmes existants dans le domaine. Les résultats expérimentaux démontrent l’efficacité de l’algorithme proposé pour améliorer la précision de la détection d’objets significatifs. De plus, l’algorithme montre une applicabilité potentielle dans les tâches visuelles de puissance, offrant des perspectives prometteuses dans divers environnements complexes dans le domaine des réseaux électriques intelligents.

Expériences d’ablation
L’enquête actuelle a exécuté une série d’expériences d’ablation sur la base de données SOD pour évaluer l’efficacité de l’algorithme. Les résultats de ces expériences sont détaillés dans le tableau 1. (1) Les paramètres d’évaluation utilisés pour comparer le modèle sont la courbe de précision22, F βet EMAE. Les résultats du tableau 1 (n° 1) montrent que la suppression du modèle DCL de l’algorithme entraîne une diminution de la valeur de βFet une augmentation de la valeur EMAE. L’observation susmentionnée suggère que les couches convolutives dynamiques (DCL) peuvent avoir la capacité de renforcer l’efficacité des réseaux neuronaux profonds en intégrant des champs réceptifs dynamiques dans diverses couches, ce qui, à son tour, peut augmenter le contraste visuel des cartes de caractéristiques multi-échelles. (2) D’après le tableau 1 (n° 2), nous pouvons voir que l’algorithme de cet article ne supprime que la structure du DEDN, en comparant avec le module complet du tableau 1 (n° 3), la valeur F_β du tableau 1 (n° 2) diminue et la valeur E_MAE augmente, ce qui indique que le DEDN peut localiser efficacement et précisément la proéminence, augmenter le champ réceptif, et conserver les informations détaillées de l’image, tout en renforçant les limites de la proéminence.

La figure 6 présente les résultats de visualisation de l’expérience d’ablation. Les images sont disposées de gauche à droite, présentant l’image originale, le résultat de l’algorithme DCL, le résultat de l’algorithme DEDN, l’algorithme proposé dans cet article et l’image de vérité terrain correspondante. En examinant de plus près la figure 6, il est évident que l’algorithme DCL a tendance à décrire la limite cible lors de la détection d’images dans la base de données SOD, mais a du mal à filtrer efficacement l’arrière-plan. L’algorithme DEDN, en revanche, renforce la limite cible mais rencontre des difficultés pour supprimer les informations de redondance en arrière-plan. En revanche, l’algorithme proposé dans cet article combine les forces de ces deux algorithmes de manière complémentaire, mettant efficacement en évidence la cible tout en supprimant les informations de redondance des arrière-plans complexes. Les résultats de cet article surpassent ceux de l’un ou l’autre algorithme seul.

Comparaison avec d’autres algorithmes avancés
Pour évaluer les performances de l’algorithme proposé, une analyse comparative a été effectuée avec onze méthodes de détection d’objets saillants importantes, à savoir GMR23, GS24, SF25,26, SS27, DRFI28, MDF29, ELD30, DHS31 et DCL11. Parmi elles, GMR23, GS24, SF25,26, SS27 et DRFI28 sont des méthodes traditionnelles de détection de saillance non supervisée très performantes couramment utilisées comme références par de nombreux modèles de saillance profonde. Les quatre autres méthodes exploitent des réseaux neuronaux convolutifs profonds et ont démontré des performances supérieures dans leurs publications de recherche respectives. Les paramètres d’évaluation utilisés pour cette étude comprennent les courbes PR, les valeurs maximales de la mesure F et l’erreur absolue moyenne (MAE). Les ensembles de données de test sélectionnés comprennent des ensembles de données SOD et ECSSD.

Comparaison quantitative
La figure 7 illustre les courbes de précision-rappel (PR) comparant l’algorithme proposé dans cette étude avec 10 autres méthodes de détection d’objets saillants importants sur les ensembles de données d’images SOD et ECSSD accessibles au public. Les courbes indiquent clairement que l’algorithme proposé dans cette étude surpasse les 10 autres algorithmes, validant ainsi les performances de détection supérieures de la méthode présentée dans cet article. Il convient de noter en particulier la capacité de cet algorithme à maintenir une haute précision même lorsque le rappel approche de 1, indiquant sa segmentation précise des objets visuellement saillants tout en assurant leur intégrité. Le tableau 2 fournit une comparaison quantitative des méthodes sur les ensembles de données de test SOD et ECSSD, révélant que notre algorithme atteint de meilleures performances en termes de mesure F maximale (Fβ) et d’erreur absolue moyenne (EMAE), principalement attribuée à la combinaison complémentaire du réseau DCL et du réseau DEDN.

Comparaison qualitative
De plus, une évaluation qualitative a été menée pour juxtaposer les résultats visuels des techniques analysées, comme l’illustre la figure 8. Ces figures présentent une séquence d’images disposées de gauche à droite, en commençant par les images originales, suivies de GMR23, GS24, SF25,26, SS27, DRFI28, MDF29, ELD30, DHS31 et DCL11, l’algorithme proposé dans cet article et la carte de vérité terrain.

La figure 8A présente une comparaison qualitative dans l’ensemble de données SOD. Il est évident que l’image originale de la colonne 1 présente une distribution des couleurs relativement similaire entre les éléments d’arrière-plan et de premier plan. De plus, les première et troisième cartes de saillance présentent une texture d’arrière-plan plus complexe, ce qui peut entraver la détection de l’objet saillant. L’algorithme décrit dans cette étude montre une amélioration significative de la détection des objets saillants dans des environnements complexes, dépassant les performances des autres algorithmes existants. L’image initiale de la colonne 1, en particulier la deuxième image, contient des branches d’arrière-plan qui sont mélangées à l’animal de premier plan, ce qui pose un défi pour les évaluations correctes de l’objet de premier plan. L’algorithme mis en avant dans cette étude aborde avec succès la question de l’interférence de fond et met efficacement en évidence la région de l’objet de premier plan. L’expérience démontre que l’algorithme proposé atteint une grande exactitude et précision dans le traitement d’images avec des arrière-plans complexes.

La figure 8B présente une comparaison qualitative au sein de l’ensemble de données de l’ECSSD, mettant en évidence les résultats du contraste visuel de diverses méthodes de détection d’objets saillants. Les résultats indiquent que l’algorithme proposé permet d’obtenir des performances de détection supérieures sur des scènes naturelles diverses et complexes. Ces images de scènes naturelles englobent des scénarios tels que des objets saillants en contact avec les limites de l’image dans la première et la deuxième image et un faible contraste et une faible similitude de couleur entre le premier plan et l’arrière-plan dans la troisième image. Grâce à ces résultats visualisés, l’algorithme proposé ici met efficacement en évidence des objets saillants complets tout en assurant des limites d’objets claires. Quelle que soit l’échelle des objets saillants, qu’ils soient grands ou petits, l’algorithme présente constamment une grande précision de segmentation, validant son efficacité. De plus, par rapport à d’autres méthodes, l’algorithme présenté dans cette étude démontre une plus grande robustesse, atténuant les fausses détections dans les régions saillantes (ou régions de fond).

Figure 1
Figure 1 : Cadre structurel global. Représentation schématique du modèle proposé. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 2
Figure 2 : Modèle DCL au niveau du pixel. Un modèle DCL au niveau du pixel est utilisé dans l’architecture de VGG16, un réseau de neurones convolutifs profonds. Les quatre couches de regroupement maximales initiales sont interconnectées avec trois noyaux. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 3
Figure 3 : Modèle de réseau d’encodage-décodage (DEDN). Les caractéristiques profondes sont fusionnées avec des caractéristiques superficielles inspirées du travail de détection des bords, proposant le modèle de réseau encodeur-décodeur (DEDN). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 4
Figure 4 : interface graphique Le code est exécuté pour générer une interface graphique pour une utilisation facile. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 5
Figure 5 : Démonstration de l’interface graphique. Présentation de l’interface graphique pour une comparaison facile des résultats d’images de test. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 6
Figure 6 : Les résultats de visualisation de l’expérience d’ablation. (A) L’image originale, (B) l’algorithme DCL, (C) l’algorithme DEDN, (D) l’algorithme utilisé dans l’étude en cours, et (E) l’image de vérité terrain correspondante sont affichés de gauche à droite. Comme on peut le voir sur la figure 6, (B), l’algorithme DCL ne peut décrire que la limite cible lors de la détection d’images, et l’arrière-plan est difficile à filtrer. (C) L’algorithme DEDN a pour effet de renforcer la limite cible, mais il est tout aussi difficile de supprimer les informations de redondance d’arrière-plan ; tandis que (D) l’algorithme de cet article combine ces deux algorithmes de manière complémentaire, mettant en évidence la cible tout en supprimant les informations de redondance de l’arrière-plan complexe. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 7
Figure 7 : Courbe P-R. (A) Les courbes P-R sont dans les bases de données SOD et (B) les courbes P-R sont dans les bases de données ECSSD respectivement. Les courbes P-R de l’algorithme de cette étude en (A) et (B) sont plus élevées que celles des 10 autres algorithmes, ce qui prouve que l’algorithme de cet article a une grande précision par rapport à ces 10 algorithmes. Veuillez cliquer ici pour voir une version agrandie de cette figure.

Figure 8
Figure 8 : Comparaison qualitative. Comparaison qualitative de différents algorithmes de détection d’objets saillants dans les bases de données SOD (A) et ECSSD (B) respectivement. Lesimages d’entrée originales sont présentées de gauche à droite, GMR, GS, SF,, SS, DRFI, MDF, ELD, DHS et DCL, l’algorithme proposé dans cette étude et la carte de vérité terrain. Comme on le voit en (A), l’algorithme décrit apporte une amélioration significative de la détection des objets saillants dans des environnements complexes, surpassant les performances des autres algorithmes existants. Comme on peut le voir en (B), l’algorithme proposé dans cette étude a une plus grande robustesse par rapport aux autres méthodes car il réduit la fausse détection des régions saillantes (ou de fond). Veuillez cliquer ici pour voir une version agrandie de cette figure.

Non. Réglage du module Fβ EMAE
N°1 Suppression de DCL uniquement 0.835 0.117
N°2 Suppression de DEDN uniquement 0.832 0.126
N°3 Module complet 0.854 0.110

Tableau 1 : Résultats des expériences d’ablation.

Modèle GAZON ECSSD
Fβ EMAE Fβ EMAE
Le 0.740 0.148 0.476 0.189
GS 0.677 0.188 0.355 0.344
SF 0.779 0.150 0.309 0.230
0.720 0.162 0.358 0.248
ß 0.574 0.225 0.268 0.344
DRFI 0.801 0.127 0.516 0.166
MDF 0.709 0.150 0.832 0.105
CHAMPS 0.737 0.154 0.869 0.078
Le DHS 0.812 0.127 0.907 0.059
DCL 0.786 0.131 0.901 0.068
Cette étude 0.854 0.110 0.938 0.044

Tableau 2 : Les valeurs maximales de mesure F (Fβ) et les valeurs MAE (Mean Absolute Error) de divers algorithmes sur deux ensembles de données d’images.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

L’article présente un réseau neuronal profond de bout en bout spécialement conçu pour la détection d’objets saillants dans des environnements complexes. Le réseau est composé de deux composants interconnectés : un réseau entièrement convolutif (DCL) multi-échelle au niveau du pixel et un réseau encodeur-décodeur profond (DEDN). Ces composants fonctionnent en synergie, incorporant une sémantique contextuelle pour générer des contrastes visuels dans des cartes de caractéristiques multi-échelles. De plus, ils exploitent les caractéristiques d’image profondes et superficielles pour améliorer la précision de la délimitation des limites des objets. L’intégration d’un modèle de champ aléatoire conditionnel (CRF) entièrement connecté améliore encore la cohérence spatiale des cartes de saillance et de la délimitation des contours.

Pour atteindre cet objectif, deux réseaux profonds, à savoir le réseau Deep Context Learning (DCL) et le Deep Encoder-Decoder Network (DEDN), ont été construits sur la base de l’architecture VGG16. Comme expliqué à l’étape opérationnelle 1.2, les images d’entrée traitées par le DCL produisent des cartes de caractéristiques de différentes échelles, caractérisées par des champs réceptifs distincts. Ces cartes sont ensuite combinées avec la sémantique contextuelle, générant finalement des cartes de saillance avec des dimensions W × H, possédant une cohérence interdimensionnelle. Plus précisément, le DCL11 utilise une paire de couches convolutives, chacune équipée d’un noyau 7 x 7, pour remplacer la couche de pooling finale du réseau VGG16 d’origine. Cette modification est cruciale pour préserver les informations spatiales dans les cartes d’entités. En collaboration avec la sémantique contextuelle, il en résulte des cartes de saillance dotées d’une cohérence interdimensionnelle.

Simultanément, le réseau Deep Encoder-Decoder Network (DEDN)14 utilise 3 x 3 couches convolutives à noyau dans sa section décodeur, suivies d’une couche convolutive solitaire après le dernier module de décodage. Cette intégration de caractéristiques profondes et peu profondes par le DEDN facilite la génération de cartes de saillance avec des dimensions spatiales W × H, répondant aux défis associés aux limites d’objets indistinctes. La recherche présentée dans cet article présente une technique pionnière pour la détection d’objets saillants, comme expliqué à l’étape opérationnelle 1.3. Il fusionne les modèles DCL et DEDN en un cadre de réseau unifié grâce à un processus d’entraînement qui apprend les poids de ces deux réseaux profonds et fusionne ensuite les cartes de saillance acquises. Un raffinement supplémentaire est obtenu en appliquant des champs aléatoires conditionnels (CRF) de manière entièrement connectée. L’objectif principal de ce raffinement est d’améliorer la cohérence spatiale et la localisation des contours.

Les deux réseaux ont été améliorés en utilisant l’architecture VGG16 comme épine dorsale de réseau neuronal, fusionnant finalement par des champs aléatoires conditionnels (CRF). Bien que l’algorithme proposé démontre un potentiel considérable dans le domaine de la détection de cibles dans des environnements complexes, les futures initiatives de recherche seront axées sur l’amélioration de son efficacité de calcul. L’objectif est d’atteindre une vitesse de traitement supérieure sans compromettre les performances de détection.

L’algorithme proposé fait l’objet d’une évaluation approfondie par rapport à 10 algorithmes contemporains sur les bases de données SOD20 et ECSSD21 . Les résultats de l’évaluation indiquent que l’algorithme proposé surpasse les autres approches en termes de précision et d’exactitude, établissant son efficacité dans la détection d’objets saillants dans des environnements complexes. En outre, l’algorithme est prometteur pour la transférabilité aux tâches visuelles dans le domaine des systèmes d’alimentation électrique. Il présente un potentiel important pour des applications telles que la segmentation des isolants et la détection précoce des risques d’incendie dans des environnements complexes au sein de réseaux électriques intelligents.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Les auteurs n’ont rien à divulguer.

Acknowledgments

Ce travail est soutenu par l’établissement du programme de financement des projets de recherche scientifique clés des établissements d’enseignement supérieur de la province du Henan de 2024 (numéro de projet : 24A520053). Cette étude est également soutenue par la création spécialisée et la construction de cours de démonstration caractéristiques d’intégration dans la province du Henan.

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

Ingénierie numéro 202 environnements complexes de bout en bout réseaux neuronaux profonds détection d’objets saillants
Réseau neuronal profond de bout en bout pour la détection d’objets saillants dans des environnements complexes
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter