Waiting
Traitement de la connexion…

Trial ends in Request Full Access Tell Your Colleague About Jove
Click here for the English version

Engineering

Сквозная глубокая нейронная сеть для обнаружения заметных объектов в сложных средах

Published: December 15, 2023 doi: 10.3791/65554

Summary

Настоящий протокол описывает новый сквозной алгоритм обнаружения заметных объектов. Он использует глубокие нейронные сети для повышения точности обнаружения заметных объектов в сложных условиях окружающей среды.

Abstract

Обнаружение заметных объектов стало растущей областью интереса в области компьютерного зрения. Тем не менее, преобладающие алгоритмы демонстрируют меньшую точность, когда им поручено обнаруживать заметные объекты в сложных и многогранных средах. В свете этой насущной проблемы в данной статье представлена сквозная глубокая нейронная сеть, предназначенная для обнаружения заметных объектов в сложных средах. В исследовании представлена сквозная глубокая нейронная сеть, целью которой является обнаружение заметных объектов в сложных средах. Состоящая из двух взаимосвязанных компонентов, а именно многомасштабной полной сверточной сети на уровне пикселей и сети глубоких кодеров-декодеров, предлагаемая сеть интегрирует контекстуальную семантику для создания визуального контраста между многомасштабными картами признаков, используя при этом глубокие и поверхностные характеристики изображений для повышения точности идентификации границ объектов. Интеграция полносвязной модели условного случайного поля (CRF) еще больше повышает пространственную когерентность и контурное очерчивание карт выдающихся. Предложенный алгоритм всесторонне оценен в сравнении с 10 современными алгоритмами в базах данных SOD и ECSSD. Результаты оценки показывают, что предложенный алгоритм превосходит другие подходы по точности и достоверности, тем самым подтверждая его эффективность при обнаружении заметных объектов в сложных условиях.

Introduction

Функция обнаружения заметных объектов имитирует зрительное внимание человека, быстро определяя ключевые области изображения, подавляя фоновую информацию. Этот метод широко используется в качестве инструмента предварительной обработки в таких задачах, как обрезка изображений1, семантическая сегментация2 и редактирование изображений3. Он оптимизирует такие задачи, как замена фона и извлечение переднего плана, повышая эффективность и точность редактирования. Кроме того, он помогает в семантической сегментации, улучшая целевую локализацию. Потенциал обнаружения заметных объектов для повышения вычислительной эффективности и экономии памяти подчеркивает его значительные исследовательские и прикладные перспективы.

На протяжении многих лет обнаружение заметных объектов эволюционировало от первоначальных традиционных алгоритмов до внедрения алгоритмов глубокого обучения. Цель этих достижений состояла в том, чтобы сократить разрыв между обнаружением заметных объектов и зрительными механизмами человека. Это привело к принятию глубоких сверточных сетевых моделей для изучения обнаружения заметных объектов. Borji et al.4 обобщили и обобщили большинство классических традиционных алгоритмов, которые опираются на базовые характеристики изображения. Несмотря на некоторое повышение точности обнаружения, ручное управление и познание по-прежнему создают трудности при обнаружении заметных объектов в сложных условиях.

Использование сверточных нейронных сетей (СНС) широко распространено в области обнаружения заметных объектов. В этом контексте глубокие сверточные нейронные сети используются для обновления веса с помощью автономного обучения. Сверточные нейронные сети используются для извлечения контекстуальной семантики из изображений с помощью каскадных сверточных и пулинговых слоев, что позволяет изучать сложные характеристики изображений на более высоких уровнях, которые обладают более высокой способностью к различению и характеристикам для обнаружения заметных объектов в различных средах.

В 2016 году полностью сверточныенейронные сети5 получили значительное распространение в качестве популярного подхода к обнаружению заметных объектов, на основе которого исследователи начали обнаружение заметных объектов на уровне пикселей. Многие модели, как правило, построены на существующих сетях (например, VGG166, ResNet7), направленных на улучшение представления изображения и усиление эффекта распознавания краев.

Liu et al.8 использовали уже обученную нейронную сеть в качестве основы для вычисления изображения глобально, а затем уточнили границу объекта с помощью иерархической сети. Комбинация этих двух сетей образует окончательную сеть глубокой значимости. Это достигалось путем ввода в сеть ранее полученной карты выступа в качестве априорного знания в повторяющейся манере. Zhang et al.9 эффективно объединили семантическую и пространственную информацию изображений с помощью глубоких сетей с двунаправленной передачей информации от поверхностных слоев к глубоким и от глубоких слоев к неглубоким, соответственно. Обнаружение заметных объектов с помощью модели взаимного обучения было предложено Wu et al.10. Модель использует информацию переднего плана и края в сверточной нейронной сети для облегчения процесса обнаружения. Li et al.11 использовали «дырочный алгоритм» нейронных сетей для решения задачи фиксации рецептивных полей различных слоев в глубоких нейронных сетях в контексте обнаружения заметных объектов. Тем не менее, сегментация суперпикселей используется для захвата краев объектов, что значительно увеличивает вычислительные усилия и время вычислений. Ren et al.12 разработали многомасштабную сеть кодеров-декодеров для обнаружения заметных объектов и использовали сверточные нейронные сети для эффективного объединения глубоких и мелких признаков. Несмотря на то, что проблема размытия границ при обнаружении объектов решается с помощью этого подхода, многомасштабное слияние информации неизбежно приводит к повышенным вычислительным требованиям.

В обзоре литературы13 предлагается, чтобы обобщить обнаружение салиентности, от традиционных методов до методов глубокого обучения, и можно очень ясно увидеть эволюцию обнаружения целей салиентности от ее истоков до эры глубокого обучения. В литературе предложены различные модели обнаружения выступающих объектов на основе RGB-D с хорошими характеристиками14. В приведенной выше литературе рассматриваются и классифицируются различные типы алгоритмов обнаружения объектов значимости, а также описываются сценарии их применения, используемые базы данных и метрики оценки. В данной статье также проведен качественный и количественный анализ предложенных алгоритмов с учетом предложенных ими баз данных и оценочных метрик.

Все вышеперечисленные алгоритмы показали замечательные результаты в общедоступных базах данных, обеспечив основу для обнаружения заметных объектов в сложных средах. Несмотря на многочисленные научные достижения в этой области как внутри страны, так и за рубежом, все еще остаются некоторые вопросы, требующие решения. (1) Традиционные алгоритмы неглубокого обучения, как правило, имеют низкую точность из-за их зависимости от вручную обозначенных характеристик, таких как цвет, текстура и частота, на которые может легко повлиять субъективный опыт и восприятие. Следовательно, точность их возможностей обнаружения заметных объектов снижается. Обнаружение заметных объектов в сложных средах с помощью традиционных алгоритмов неглубокого обучения является сложной задачей из-за их сложности в обработке сложных сценариев. (2) Традиционные методы обнаружения заметных объектов демонстрируют ограниченную точность из-за их зависимости от обозначенных вручную признаков, таких как цвет, текстура и частота. Кроме того, обнаружение на уровне региона может быть ресурсоемким с точки зрения вычислений, часто игнорируя пространственную согласованность и, как правило, плохо обнаруживая границы объектов. Эти проблемы необходимо решить для повышения точности обнаружения заметных объектов. (3) Обнаружение заметных объектов в сложных условиях представляет собой сложную задачу для большинства алгоритмов. Большинство алгоритмов обнаружения заметных объектов сталкиваются с серьезными проблемами из-за все более сложной среды обнаружения заметных объектов с переменным фоном (одинаковые цвета фона и переднего плана, сложные текстуры фона и т. д.), множества неопределенностей, таких как несогласованные размеры объектов обнаружения и нечеткое определение краев переднего и заднего плана.

Большинство современных алгоритмов демонстрируют низкую точность обнаружения заметных объектов в сложных средах с похожими цветами фона и переднего плана, сложными фоновыми текстурами и размытыми краями. Несмотря на то, что современные алгоритмы распознавания заметных объектов, основанные на глубоком обучении, демонстрируют более высокую точность, чем традиционные методы обнаружения, базовые функции изображений, которые они используют, по-прежнему не позволяют эффективно характеризовать семантические признаки, что оставляет возможности для улучшения их производительности.

Таким образом, в этом исследовании предлагается сквозная глубокая нейронная сеть для алгоритма обнаружения заметных объектов, направленная на повышение точности обнаружения заметных объектов в сложных средах, улучшение границ целей и лучшую характеристику семантических признаков. Вклад в эту статью заключается в следующем: (1) Первая сеть использует VGG16 в качестве базовой сети и модифицирует свои пять слоев пула, используя «алгоритм дырок»11. Многомасштабная полностью сверточная нейронная сеть пиксельного уровня изучает особенности изображения в различных пространственных масштабах, решая проблему статических рецептивных полей на различных уровнях глубоких нейронных сетей и повышая точность обнаружения в значимых областях фокусировки в поле. (2) Недавние усилия по повышению точности обнаружения заметных объектов были сосредоточены на использовании более глубоких нейронных сетей, таких как VGG16, для извлечения как глубинных признаков из сети кодировщиков, так и неглубоких признаков из сети декодеров. Такой подход эффективно повышает точность определения границ объектов и улучшает семантическую информацию, особенно в сложных средах с переменным фоном, несогласованными размерами объектов и нечеткими границами между передним и задним планами. (3) Недавние усилия по повышению точности обнаружения заметных объектов сделали акцент на использовании более глубоких сетей, включая VGG16, для извлечения глубоких признаков из сети кодеров и мелких признаков из сети декодеров. Этот подход продемонстрировал улучшенное обнаружение границ объектов и больший объем семантической информации, особенно в сложных средах с различным фоном, размерами объектов и нечеткими границами между передним и задним планами. Кроме того, была реализована интеграция полносвязной модели условного случайного поля (CRF) для повышения пространственной когерентности и точности контуров карт выдающихся. Эффективность данного подхода оценивалась на наборах данных SOD и ECSSD со сложным фоном и была признана статистически значимой.

Работы по теме
Fu et al.15 предложили совместный подход с использованием RGB и глубокого обучения для обнаружения заметных объектов. Lai et al.16 представили слабо контролируемую модель для обнаружения заметных объектов, обучаясь значимости из аннотаций, в основном используя метки для экономии времени аннотирования. Несмотря на то, что эти алгоритмы представляли собой слияние двух взаимодополняющих сетей для обнаружения объектов значимости, им не хватало углубленного исследования обнаружения салиентности в сложных сценариях. Wang et al.17 разработали двухмодовое итеративное слияние функций нейронной сети, как снизу вверх, так и сверху вниз, постепенно оптимизируя результаты предыдущей итерации до сходимости. Zhang et al.18 эффективно объединили семантическую и пространственную информацию изображений с помощью глубоких сетей с двунаправленной передачей информации от мелкого слоя к глубокому и от глубокого к неглубокому, соответственно. Обнаружение заметных объектов с помощью модели взаимного обучения было предложено Wu et al.19. Модель использует информацию переднего плана и края в сверточной нейронной сети для облегчения процесса обнаружения. Эти модели обнаружения заметных объектов на основе глубоких нейронных сетей достигли замечательной производительности на общедоступных наборах данных, что позволяет обнаруживать заметные объекты в сложных природных сценах. Тем не менее, разработка еще более совершенных моделей остается важной целью в этой области исследований и служит основной мотивацией для этого исследования.

Общая структура
Схематическое представление предлагаемой модели, как показано на рисунке 1, в основном является производным от архитектуры VGG16, включающей в себя как многомасштабную полностью сверточную нейронную сеть (DCL) на уровне пикселей, так и сеть глубокого кодирования-декодера (DEDN). Модель исключает все окончательные пулы и полносвязные слои VGG16, сохраняя при этом размеры входного изображения Ш × В. Оперативный механизм включает в себя первичную обработку входного изображения через DCL, облегчая извлечение глубоких признаков, в то время как мелкие объекты получаются из сетей EDN. Слияние этих характеристик впоследствии подвергается модели полносвязного условного случайного поля (CRF), повышающей пространственную когерентность и точность контуров полученных карт значимости.

Чтобы убедиться в эффективности модели, она прошла тестирование и валидацию на наборах данных SOD20 и ECSSD21 со сложным фоном. После того, как входное изображение проходит через РСН, получаются карты признаков разного масштаба с различными рецептивными полями, а контекстуальная семантика объединяется для получения карты выступа W × H с межпространственной когерентностью. В DCL используется пара сверточных слоев с ядрами 7 x 7 для замены конечного слоя пула исходной сети VGG16, улучшая сохранение пространственной информации в картах признаков. Это, в сочетании с контекстуальной семантикой, дает карту выступа W × H с межпространственной когерентностью. Аналогичным образом, в сети Deep Encoder-Decoder Network (DEDN) используются сверточные слои с ядрами 3 x 3 в декодерах и одним сверточным слоем после последнего модуля декодирования. Используя глубокие и поверхностные особенности изображения, можно создать карту выступов с пространственной размерностью W × H, решая проблему нечетких границ объектов. В исследовании описывается новаторский метод обнаружения заметных объектов, который объединяет модели DCL и DEDN в единую сеть. Веса этих двух глубоких сетей изучаются в процессе обучения, а результирующие карты значимости объединяются, а затем уточняются с помощью полносвязного условного случайного поля (CRF). Основной целью этого уточнения является улучшение пространственной согласованности и локализации контуров.

Мультимасштабная полностью сверточная нейронная сеть на уровне пикселей
Архитектура VGG16 первоначально состояла из пяти слоев пула, каждый из которых имел шаг 2. Каждый слой пула сжимает размер изображения, чтобы увеличить количество каналов, получая больше контекстной информации. Модель DCL вдохновлена литературой13 и является усовершенствованием структуры VGG16. В этой статье используется модельDCL 11 на уровне пикселей, как показано на рисунке 2 , в архитектуре VGG16, глубокой сверточной нейронной сети. Начальные четыре максимальных слоя пула связаны между собой тремя ядрами. Первое ядро — 3 × 3 × 128; второе ядро — 1 × 1 × 128; и третье ядро - 1 × 1 × 1. Чтобы добиться одинакового размера карт объектов после первых четырех слоев пула, соединенных с тремя ядрами, при этом каждый размер эквивалентен одной восьмой исходного изображения, размер шага первого ядра, соединенного с этими четырьмя крупнейшими слоями пула, устанавливается равным 4, 2, 1 и 1 соответственно.

Чтобы сохранить исходное рецептивное поле в различных ядрах, используется «алгоритм дырок», предложенный в литературе11 , для увеличения размера ядра путем добавления нулей, тем самым сохраняя целостность ядра. Эти четыре карты признаков подключены к первому ядру с разными размерами шага. Следовательно, карты признаков, полученные на заключительном этапе, имеют одинаковые размерности. Четыре карты признаков представляют собой набор многомасштабных объектов, полученных из различных масштабов, каждый из которых представляет различные размеры рецептивных полей. Результирующие карты признаков, полученные из четырех промежуточных слоев, объединяются с конечной картой признаков, полученной из VGG16, таким образом, генерируя 5-канальный выход. Последующий вывод затем подвергается воздействию ядра 1 × 1 × 1 с сигмоидальной функцией активации, в результате чего получается рельефное отображение (с разрешением в одну восьмую исходного изображения). Изображение дискретизируется и увеличивается с помощью билинейной интерполяции, гарантируя, что результирующее изображение, называемое картой салиентности, сохраняет то же разрешение, что и исходное изображение.

Глубокая сеть энкодеров-декодеров
Аналогично, сеть VGG16 используется в качестве магистральной сети. VGG16 характеризуется низким числом неглубоких каналов карты признаков, но высоким разрешением, а также большим количеством глубоких каналов признаков, но низким разрешением. Объединение слоев в пул и понижение дискретизации увеличивают вычислительную скорость глубокой сети за счет снижения разрешения карты признаков. Для решения этой проблемы, в соответствии с анализом, приведенным в литературе14, сеть кодировщика используется для изменения полной связности последнего слоя пула в исходном VGG16. Данная модификация предполагает замену его двумя сверточными слоями с 7 × 7 ядрами (более крупные сверточные ядра увеличивают рецептивное поле). Оба ядра свертки оснащены операцией нормализации (BN) и модифицированным линейным блоком (ReLU). Это уравнивание приводит к выходной карте объектов кодировщика, которая лучше сохраняет информацию о пространстве изображения.

Несмотря на то, что кодировщик улучшает высокоуровневую семантику изображения для глобальной локализации заметных объектов, проблема размытия границ его заметного объекта эффективно не решается. Чтобы решить эту проблему, глубокие признаки объединяются с мелкими функциями, вдохновленными работой12 по обнаружению границ, в которой предлагается модель сети кодировщика-декодера (DEDN), как показано на рисунке 3. Архитектура кодировщика состоит из трех ядер, связанных между собой с первоначальными четырьмя, в то время как декодер систематически повышает разрешение карты признаков, используя максимальные значения, полученные из максимальных слоев пула.

В этой инновационной методологии обнаружения заметных объектов на этапе декодирования используется сверточный слой с ядром 3 × 3 в сочетании со слоем пакетной нормализации и адаптированным линейным блоком. В завершении последнего модуля декодирования в архитектуре декодера используется сверточный слой с одним каналом для получения рельефной карты пространственных измерений W × H. Карта выступа генерируется путем совместного слияния модели кодера-декодера, что дает результат, и комплементарного слияния двух, т.е. комплементарного слияния глубокой информации и поверхностной информации. Это позволяет не только точно локализовать выступающий объект и увеличить рецептивное поле, но и эффективно сохранить информацию о деталях изображения и укрепить границу выступающего объекта.

Механизм интеграции
Архитектура кодировщика состоит из трех ядер, которые связаны с начальными четырьмя максимальными уровнями пула модели VGG16. В отличие от этого, декодер намеренно сформулирован таким образом, чтобы постепенно увеличивать разрешение карт признаков, полученных из слоев с повышающей дискретизацией, за счет использования максимальных значений, полученных от соответствующих слоев пула. Затем в декодере используется сверточный слой, использующий ядро 3 x 3, слой пакетной нормализации и модифицированный линейный блок, за которым следует одноканальный сверточный слой для создания заметной карты измерений W × H. Весовые коэффициенты двух глубоких сетей изучаются с помощью чередующихся циклов обучения. Параметры первой сети оставались неизменными, в то время как параметры второй сети подвергались обучению в общей сложности в течение пятидесяти циклов. Во время этого процесса веса карты салиентности (S1 и S2), используемые для слияния, обновляются с помощью случайного градиента. Функция потерь11 имеет вид:

Equation 1 (1)

В данном выражении символ G представляет собой значение, помеченное вручную, в то время как W обозначает полный набор параметров сети. Вес β i служит уравновешивающим фактором для регулирования соотношения заметных пикселей и незаметных пикселей в процессе вычисления.

Изображение I характеризуется тремя параметрами: |Я|, |Я|- и |Я|+, которые представляют общее количество пикселей, количество незаметных пикселей и количество заметных пикселей соответственно. Equation 2

Поскольку карты выступов, полученные из двух вышеупомянутых сетей, не учитывают когерентность соседних пикселей, для улучшения пространственной когерентности используется полносвязная модель уточнения значимости на уровне пикселей CRF15 . Энергетическое уравнение11 выглядит следующим образом, решая задачу разметки двоичных пикселей.

Equation 3 (2)

где L обозначает двоичную метку (заметное значение или незаметное значение), присвоенную всем пикселям. Переменная P(li) обозначает вероятность того, что данному пикселю xiбудет присвоена определенная метка li, указывающая на вероятность того, что пикселю xiбудет известно. В начале P(1) = Siи P(0) = 1 - Si, где Siобозначает значение салиентности в пикселе xiв пределах объединенной карты салиентности Sθi,j(li,l j) – попарный потенциал, определяемый следующим образом.

Equation 4 (3)

Среди них, если lilj, то μ(li,l j) = 1, в противном случае μ(li,l j) = 0. Вычисление θi,j включает в себя использование двух ядер, где исходное ядро зависит как от положения пикселя P, так и от интенсивности пикселя I. Это приводит к тому, что пиксели с похожими цветами имеют сопоставимые значения яркости. Два параметра, σα и σβ, регулируют степень, в которой сходство цветов и пространственная близость влияют на результат. Задачей второго ядра является устранение изолированных небольших областей. Минимизация энергии достигается за счет многомерной фильтрации, которая ускоряет среднее поле распределения условного случайного поля (CRF). После вычислений карта выступа, обозначенная как Scrf, демонстрирует повышенную пространственную когерентность и контур по отношению к обнаруженным заметным объектам.

Экспериментальные конфигурации
В данной статье построена глубокая сеть обнаружения заметных целей на основе нейронной сети VGG16 с использованием языка Python. Предложенная модель сравнивается с другими методами с использованием наборов данных SOD20 и ECSSD21 . База данных изображений SOD известна своими сложными и загроможденными фонами, сходством цветов между передним и задним планами, а также малыми размерами объектов. Каждому изображению в этом наборе данных присваивается истинное значение, помеченное вручную, как для количественной, так и для качественной оценки производительности. С другой стороны, набор данных ECSSD в основном состоит из изображений, взятых из Интернета, с более сложными и реалистичными природными сценами с низким контрастом между фоном изображения и заметными объектами.

Оценочные индексы, используемые для сравнения модели в этой статье, включают широко используемую кривую точности-полноты, Fβи EMAE. Для количественной оценки прогнозируемой карты значимости используется кривая точности-полноты (P-R)22 путем изменения порога от 0 до 255 для бинаризации карты салиентности. Fβ— это комплексная метрика оценки, рассчитанная с использованием уравнений точности и полноты, полученных из бинаризованной карты выступа и карты истинных значений.

Equation 5 (4)

где β — параметр веса для регулировки точности и полноты, установив β2 = 0,3. Вычисление EMAEэквивалентно вычислению средней абсолютной ошибки между результирующей картой значимости и картой наземной достоверности, определяемой следующим математическим выражением:

Equation 6 (5)

Пусть Ts(u,v) обозначает извлеченное значение пикселов выпуклой карты (u,v), а TG(u,v) обозначает соответствующее значение пикселов истинного отображения (u,v).

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. Экспериментальная установка и процедура

  1. Загрузите предварительно обученную модель VGG16.
    ПРИМЕЧАНИЕ: Первым шагом является загрузка предварительно обученной модели VGG16 из библиотеки Keras6.
    1. Чтобы загрузить предварительно обученную модель VGG16 в Python с помощью популярных библиотек глубокого обучения, таких как PyTorch (см. Таблицу материалов), выполните следующие общие действия:
      1. Импорт резака. Импортируйте torchvision.models в качестве моделей.
      2. Загрузите предварительно обученную модель VGG16. vgg16_model = models.vgg16(pretrained=True).
      3. Убедитесь, что сводка модели VGG16 имеет значение "print(vgg16_model)".
  2. Определите модели DCL и DEDN.
    1. В качестве псевдокода алгоритма РСН укажите Входные данные: Набор данных изображений SOD и Выходные данные: Обученная модель РСН.
      1. Инициализируйте модель DCL с помощью магистральной сети VGG16.
      2. Выполните предварительную обработку набора данных изображения D (например, изменение размера, нормализацию).
      3. Разделите набор данных на обучающий и проверочный наборы.
      4. Определите функцию потерь для обучения модели РСН (например, бинарную кросс-энтропию).
      5. Задайте гиперпараметры для обучения: Скорость обучения (0.0001), Количество заданных эпох обучения (50), Размер пакета (8), Оптимизатор (Адам).
      6. Обучите модель РСН: для каждой эпохи в заданном количестве эпох выполните для каждого пакета в обучающем наборе. Введите следующее:
        1. Прямой проход: передача пакетных изображений в модель DCL. Рассчитайте потери, используя карты прогнозируемой значимости и карты наземных истин.
        2. Обратный проход: Обновите параметры модели с помощью градиентного конца спуска. Вычислите потери при проверке и другие метрики оценки в конце проверочного набора.
      7. Сохраните обученную модель DCL.
      8. Возвращает обученную модель DCL.
    2. Для псевдокода для алгоритма DEDN введите следующие данные: Набор данных изображений (X), Карты достоверности наземных данных (Y), Количество итераций обучения (N).
      1. Для сети кодировщика убедитесь, что кодировщик основан на скелете VGG16 с изменениями (как указано ниже).
        ПРИМЕЧАНИЕ: encoder_input = Input(shape=input_shape)
        encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='то же')(encoder_input)
        encoder_pool1 = MaxPooling2D((2, 2))(encoder_conv1)
        encoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='то же')(encoder_pool1)
        encoder_pool2 = MaxPooling2D((2, 2))(encoder_conv2)
        encoder_conv3 = Conv2D(256, (3, 3), activation='relu', padding='то же')(encoder_pool2)
        encoder_pool3 = MaxPooling2D((2, 2))(encoder_conv3)
      2. Для сети декодеров убедитесь, что декодер основан на скелете VGG16 с модификациями (как указано ниже).
        ПРИМЕЧАНИЕ: decoder_conv1 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool3)
        decoder_upsample1 = UpSampling2D((2, 2))(decoder_conv1)
        decoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='то же')(decoder_upsample1)
        decoder_upsample2 = UpSampling2D((2, 2))(decoder_conv2)
        decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
        decoder_upsample3 = UpSampling2D((2, 2))(decoder_conv3)
        decoder_output = Conv2D(1, (1, 1), activation='sigmoid', padding='same')(decoder_upsample3)
    3. Определите модель DEDN. model = Модель (входы = encoder_input, выходы = decoder_output).
    4. Скомпилируйте модель. model.compile (оптимизатор = adam, loss = binary_crossentropy).
    5. Выберите цикл обучения.
      ПРИМЕЧАНИЕ: Для итерации в диапазоне(N): # Случайный выбор пакета изображений и наземных карт достоверности; batch_X, batch_Y = randomly_select_batch(X, Y, batch_size).
      1. Обучите модель на пакете. убыток = model.train_on_batch(batch_X, batch_Y). Выведите убыток для мониторинга.
    6. Сохраните обученную модель. model.save ('dedn_model.h5').
  3. Сочетать.
    1. Объедините выходы сетей DCL и DEDN и уточните карту салиентности с помощью полносвязной модели условного случайного поля (CRF).

2. Обработка изображений

  1. Нажмите кнопку run code, чтобы открыть графический интерфейс (рисунок 4).
  2. Нажмите на открытое изображение , чтобы выбрать путь и, таким образом, изображение, которое нужно обнаружить.
  3. Нажмите на отображаемое изображение , чтобы отобразить изображение, которое было выбрано для обнаружения.
  4. Нажмите кнопку «Начать обнаружение », чтобы обнаружить выбранное изображение.
    ПРИМЕЧАНИЕ: Результат детектирования появится вместе с обнаруженным изображением, т.е. результатом обнаружения выдающегося объекта (Рисунок 5).
  5. Нажмите на выбор пути сохранения, чтобы сохранить результаты обнаружения заметного объекта.

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

В этом исследовании представлена сквозная глубокая нейронная сеть, состоящая из двух взаимодополняющих сетей: многомасштабной полностью сверточной сети на уровне пикселей и сети глубоких кодеров-декодеров. Первая сеть интегрирует контекстуальную семантику для получения визуальных контрастов из многомасштабных карт признаков, решая проблему фиксированных рецептивных полей в глубоких нейронных сетях на разных уровнях. Вторая сеть использует как глубокие, так и поверхностные элементы изображения, чтобы смягчить проблему размытых границ в целевых объектах. Наконец, применяется полносвязная модель условного случайного поля (CRF) для улучшения пространственной когерентности и контуров карты салиентности.

В исследовании проведено качественное и количественное сравнение предложенного алгоритма с десятью существующими алгоритмами в данной области. Результаты экспериментов демонстрируют эффективность предложенного алгоритма в повышении точности обнаружения значимых объектов. Кроме того, алгоритм демонстрирует потенциальную применимость в энергетических визуальных задачах, предлагая многообещающие перспективы в различных сложных средах в области интеллектуальных электросетей.

Эксперименты по абляции
В рамках текущего исследования была проведена серия экспериментов по абляции базы данных SOD для оценки эффективности алгоритма. Результаты указанных экспериментов подробно описаны в таблице 1. (1) Оценочными метриками, используемыми для сравнения модели, являются кривая точности-полноты22, Fβи EMAE. Результаты таблицы 1 (No 1) показывают, что удаление модели РСН из алгоритма приводит к уменьшению значения Fβи увеличению значения E MAE. Вышеупомянутое наблюдение предполагает, что динамические сверточные слои (DCL) могут повысить эффективность глубоких нейронных сетей за счет интеграции динамических рецептивных полей в различные слои, что, в свою очередь, может повысить визуальный контраст многомасштабных карт признаков. (2) Из таблицы 1 (No 2) мы видим, что алгоритм в этой статье удаляет только структуру EDN, по сравнению с полным модулем в таблице 1 (No 3), значение F_β в таблице 1 (No 2) уменьшается, а значение E_MAE увеличивается, что указывает на то, что DEDN может эффективно и точно определять выпуклость, увеличивать рецептивное поле, и сохранить подробную информацию об изображении, одновременно усиливая границы протуберанца.

На рисунке 6 представлены результаты визуализации эксперимента по абляции. Изображения расположены слева направо, демонстрируя исходное изображение, результат алгоритма DCL, результат алгоритма DEDN, предложенный алгоритм в этой статье и соответствующее наземное изображение. При более внимательном рассмотрении рисунка 6 становится очевидным, что алгоритм DCL имеет тенденцию описывать целевую границу при обнаружении изображений в базе данных SOD, но испытывает трудности с эффективной фильтрацией фона. Алгоритм DEDN, с другой стороны, усиливает целевую границу, но сталкивается с проблемами подавления фоновой избыточности информации. В отличие от этого, алгоритм, предложенный в этой статье, сочетает в себе сильные стороны этих двух алгоритмов взаимодополняющим образом, эффективно выделяя цель и подавляя избыточную информацию из сложных фонов. Результаты этой работы превосходят результаты любого из алгоритмов по отдельности.

Сравнение с другими продвинутыми алгоритмами
Для оценки работоспособности предложенного алгоритма был проведен сравнительный анализ с одиннадцатью методами обнаружения заметных объектов, а именно GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 и DCL11. Среди них GMR23, GS24, SF25, PD26, SS27 и DRFI28 являются хорошо эффективными традиционными методами обнаружения салиентности без учителя, обычно используемыми в качестве эталонов во многих моделях глубокой заметности. Остальные четыре метода используют глубокие сверточные нейронные сети и продемонстрировали превосходную производительность в соответствующей исследовательской литературе. Оценочные метрики, используемые в этом исследовании, включают кривые PR, максимальные значения F-меры и среднюю абсолютную ошибку (MAE). Выбранные тестовые наборы данных включают в себя наборы данных SOD и ECSSD.

Количественное сравнение
На рисунке 7 показаны кривые точности-полноты (PR), сравнивающие алгоритм, предложенный в этом исследовании, с 10 другими известными методами обнаружения заметных объектов в общедоступных наборах данных изображений SOD и ECSSD. Кривые ясно показывают, что алгоритм, предложенный в этом исследовании, превосходит другие 10 алгоритмов, тем самым подтверждая превосходную производительность обнаружения, представленную в этой статье. Особого внимания заслуживает способность этого алгоритма поддерживать высокую точность даже при приближении к 1, что указывает на его точную сегментацию визуально заметных объектов, обеспечивая при этом их целостность. В таблице 2 приведено количественное сравнение методов на тестовых наборах данных SOD и ECSSD, показывающее, что наш алгоритм достигает лучшей производительности с точки зрения максимальной F-меры (Fβ) и средней абсолютной ошибки (EMAE), что в первую очередь связано с комплементарной комбинацией сети DCL и сети DEDN.

Качественное сравнение
Кроме того, была проведена качественная оценка для сопоставления визуальных результатов анализируемых методов, как показано на рисунке 8. На этих рисунках показана последовательность изображений, расположенных слева направо, начиная с исходных изображений, за которыми следуют GMR23, GS24, SF25, PD26, SS27, DRFI28, MDF29, ELD30, DHS31 и DCL11, алгоритм, предложенный в этой статье, и карта наземной реальности.

На рисунке 8А представлено качественное сравнение в наборе данных SOD. Очевидно, что исходное изображение в столбце 1 демонстрирует относительно аналогичное распределение цвета между элементами фона и переднего плана. Кроме того, первая и третья карты значимости представляют собой более сложную фоновую текстуру, что потенциально затрудняет обнаружение заметного объекта. Алгоритм, описанный в этом исследовании, демонстрирует значительное улучшение в обнаружении заметных объектов в сложных средах, превосходя производительность других существующих алгоритмов. Исходное изображение в столбце 1, особенно второе, содержит ветви заднего плана, которые перемешаны с животным переднего плана, что затрудняет правильную оценку объекта переднего плана. Алгоритм, предложенный в данном исследовании, успешно решает проблему фоновых помех и эффективно выделяет область объекта переднего плана. Эксперимент демонстрирует, что предложенный алгоритм позволяет достичь высокой точности и аккуратности при работе с изображениями со сложным фоном.

На рисунке 8B представлено качественное сравнение в наборе данных ECSSD, демонстрирующее результаты визуального контраста различных методов обнаружения заметных объектов. Полученные результаты указывают на то, что предложенный алгоритм обеспечивает превосходную производительность обнаружения в разнообразных и сложных природных сценах. Эти изображения естественных сцен охватывают такие сценарии, как контакт заметных объектов с границами изображения на первом и втором изображениях, а также низкий контраст и цветовое сходство между передним и задним планами на третьем изображении. С помощью этих визуализированных результатов предложенный здесь алгоритм эффективно выделяет полные заметные объекты, обеспечивая при этом четкие границы объектов. Независимо от масштаба заметных объектов, больших или маленьких, алгоритм неизменно демонстрирует высокую точность сегментации, подтверждая свою эффективность. Кроме того, по сравнению с другими методами, алгоритм, представленный в этом исследовании, демонстрирует более высокую надежность, снижая ложные обнаружения в областях значимости (или фоновых областях).

Figure 1
Рисунок 1: Общая структура каркаса. Схематическое изображение предложенной модели. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 2
Рисунок 2: Пиксельная модель DCL. Модель DCL на уровне пикселей используется в архитектуре VGG16, глубокой сверточной нейронной сети. Начальные четыре максимальных слоя пула связаны между собой тремя ядрами. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 3
Рисунок 3: Модель кодирующе-декодирующей сети (DEDN). Глубокие функции объединяются с мелкими функциями, вдохновленными работой по обнаружению границ, предлагая сетевую модель кодировщика-декодера (DEDN). Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 4
Рисунок 4: Графический интерфейс. Код запускается для создания графического интерфейса для удобства работы. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 5
Рисунок 5: Демонстрация графического интерфейса. Представление графического интерфейса для удобного сравнения результатов тестовых изображений. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 6
Рисунок 6: Результаты визуализации эксперимента по абляции. (A) Исходное изображение, (B) алгоритм DCL, (C) алгоритм DEDN, (D) алгоритм, используемый в текущем исследовании, и (E) соответствующее наземное изображение показаны слева направо. Как видно из рисунка 6, (B) алгоритм DCL может описать только целевую границу при обнаружении изображений, а фон трудно отфильтровать. (C) Алгоритм DEDN усиливает целевую границу, но в равной степени трудно подавить фоновую избыточную информацию; в то время как (D) алгоритм в этой статье комбинирует эти два алгоритма взаимодополняющим образом, выделяя цель и подавляя избыточную информацию сложного фона. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 7
Рисунок 7: P-R кривая. (A) P-R кривые находятся в базах данных SOD и (B) P-R кривые находятся в базах данных ECSSD соответственно. P-R кривые алгоритма данного исследования как в (A), так и в (B) выше, чем у остальных 10 алгоритмов, что доказывает, что алгоритм в данной работе обладает высокой точностью относительно этих 10 алгоритмов. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Figure 8
Рисунок 8: Качественное сравнение. Качественное сравнение различных алгоритмов обнаружения заметных объектов в базах данных SOD (A) и ECSSD (B) соответственно. Исходныевходные изображения представлены слева направо: GMR, GS, SF, PD, SS, DRFI, MDF, ELD, DHS и DCL, алгоритм, предложенный в этом исследовании, и карта Ground-truth. Как видно из рисунка (А), описанный алгоритм обеспечивает значительное улучшение в обнаружении заметных объектов в сложных условиях, превосходя производительность других существующих алгоритмов. Как видно из рисунка (B), алгоритм, предложенный в данном исследовании, обладает более высокой надежностью по сравнению с другими методами, поскольку он снижает ложное обнаружение выступающих (или фоновых) областей. Пожалуйста, нажмите здесь, чтобы увидеть увеличенную версию этого рисунка.

Нет. Настройка модуля Фβ EMAE
NO1 Удаление только DCL 0.835 0.117
НО.2 Удаление только DEDN 0.832 0.126
НО.3 Полный модуль 0.854 0.110

Таблица 1: Результаты экспериментов по абляции.

Модель ДЕРН ECSSD
Фβ EMAE Фβ EMAE
ГМР 0.740 0.148 0.476 0.189
ГС 0.677 0.188 0.355 0.344
СФ 0.779 0.150 0.309 0.230
ПД 0.720 0.162 0.358 0.248
СС 0.574 0.225 0.268 0.344
ДРФИ 0.801 0.127 0.516 0.166
МДФ 0.709 0.150 0.832 0.105
СТАРОСТЬ 0.737 0.154 0.869 0.078
Министерство внутренней безопасности 0.812 0.127 0.907 0.059
ПКЛ 0.786 0.131 0.901 0.068
Данное исследование 0.854 0.110 0.938 0.044

Таблица 2: Максимальные значения F-меры (Fβ) и MAE (средняя абсолютная ошибка) различных алгоритмов в двух наборах данных изображений.

Subscription Required. Please recommend JoVE to your librarian.

Discussion

В статье представлена сквозная глубокая нейронная сеть, специально разработанная для обнаружения заметных объектов в сложных средах. Сеть состоит из двух взаимосвязанных компонентов: многомасштабной полностью сверточной сети пиксельного уровня (DCL) и сети глубоких кодеров-декодеров (DEDN). Эти компоненты работают синергетически, включая контекстуальную семантику для создания визуальных контрастов в многомасштабных картах признаков. Кроме того, они используют как глубокие, так и поверхностные элементы изображения для повышения точности очерчивания границ объектов. Интеграция полносвязной модели условного случайного поля (CRF) еще больше повышает пространственную когерентность карт салиентности и контуров.

Для достижения этой цели на основе архитектуры VGG16 были построены две глубокие сети, а именно сеть Deep Context Learning (DCL) и сеть Deep Encoder-Decoder Network (DEDN). Как объяснялось на этапе 1.2, входные изображения, обработанные с помощью РСН, дают карты признаков различных масштабов, характеризующиеся различными рецептивными полями. Эти карты впоследствии объединяются с контекстуальной семантикой, в конечном итоге генерируя карты салиентности с размерностями W × H, обладающие межпространственной когерентностью. В частности, DCL11 использует пару сверточных слоев, каждый из которых оснащен ядром 7 x 7, чтобы заменить последний слой пула оригинальной сети VGG16. Эта модификация имеет решающее значение для сохранения пространственной информации в картах объектов. В сотрудничестве с контекстуальной семантикой он приводит к картам значимости, наделенным межпространственной когерентностью.

В то же время, сеть Deep Encoder-Decoder Network (DEDN)14 использует 3 x 3 сверточных слоя ядра в своей секции декодирования, за которыми следует одиночный сверточный слой после последнего модуля декодирования. Такая интеграция объектов глубокого и мелкого уровня с помощью DEDN облегчает создание карт значимости с пространственными размерностями W × H, решая проблемы, связанные с нечеткими границами объектов. Исследование, представленное в этой статье, представляет собой новаторский метод обнаружения заметных объектов, как описано в рабочем шаге 1.3. Он объединяет модели DCL и DEDN в единую сетевую структуру с помощью процесса обучения, который изучает весовые коэффициенты этих двух глубоких сетей и впоследствии объединяет полученные карты значимости. Дальнейшая доработка достигается за счет применения условных случайных полей (CRF) полностью связным образом. Основной целью этого уточнения является повышение пространственной согласованности и локализации контуров.

Обе сети были усовершенствованы с использованием архитектуры VGG16 в качестве основы нейронной сети, что в конечном итоге привело к слиянию с помощью условных случайных полей (CRF). Несмотря на то, что предложенный алгоритм демонстрирует значительный потенциал в области обнаружения целей в сложных условиях, будущие исследовательские инициативы будут направлены на повышение его вычислительной эффективности. Цель состоит в том, чтобы достичь превосходной скорости обработки без ущерба для производительности обнаружения.

Предложенный алгоритм подвергается всесторонней оценке в сравнении с 10 современными алгоритмами в базах данных SOD20 и ECSSD21 . Результаты оценки показывают, что предложенный алгоритм превосходит другие подходы по точности и достоверности, что подтверждает его эффективность при обнаружении заметных объектов в сложных условиях. Кроме того, алгоритм показывает перспективность для переноса на визуальные задачи в области электроэнергетических систем. Он обладает значительным потенциалом для таких применений, как сегментация изоляторов и раннее обнаружение опасности возгорания в сложных средах в интеллектуальных электросетях.

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

Авторам нечего раскрывать.

Acknowledgments

Эта работа поддерживается Программой финансирования ключевых научно-исследовательских проектов высших учебных заведений провинции Хэнань на 2024 год (номер проекта: 24A520053). Это исследование также проводится при поддержке Специализированного демонстрационного курса по созданию и интеграции в провинции Хэнань.

Materials

Name Company Catalog Number Comments
Matlab MathWorks Matlab R2016a MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance.
It provides tools for building applications using custom graphical interfaces.
It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor  Intel 11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz 64-bit Win11 processor 
Pycharm JetBrains PyCharm 3.0 PyCharm is a Python IDE (Integrated Development Environment)
a list of required python:
modulesmatplotlib
skimage
torch
os
time
pydensecrf
opencv
glob
PIL
torchvision
numpy
tkinter
PyTorch  Facebook PyTorch 1.4  PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

  1. Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
  2. Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
  3. Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
  4. Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
  5. Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
  6. Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
  7. Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
  8. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
  9. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  10. Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  11. Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
  12. Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
  13. Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
  14. Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
  15. Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
  16. Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
  17. A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
  18. A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
  19. Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
  20. Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
  21. Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
  22. Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
  23. Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
  24. Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
  25. What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
  26. Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
  27. Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
  28. Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
  29. Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
  30. Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
  31. Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Tags

Инженерия Выпуск 202 сложные среды сквозные нейронные сети обнаружение заметных объектов
Сквозная глубокая нейронная сеть для обнаружения заметных объектов в сложных средах
Play Video
PDF DOI DOWNLOAD MATERIALS LIST

Cite this Article

Wang, Y., Wang, Z. End-To-End DeepMore

Wang, Y., Wang, Z. End-To-End Deep Neural Network for Salient Object Detection in Complex Environments. J. Vis. Exp. (202), e65554, doi:10.3791/65554 (2023).

Less
Copy Citation Download Citation Reprints and Permissions
View Video

Get cutting-edge science videos from JoVE sent straight to your inbox every month.

Waiting X
Simple Hit Counter