Engineering

複雑な環境で顕著な物体を検出するためのエンドツーエンドのディープニューラルネットワーク

Published: December 15, 2023 doi: 10.3791/65554

¹Zhengzhou University of Economics and Business, ²The 713 Research Institute of CSSC

Summary

本プロトコルは、新しいエンドツーエンドの突出物検出アルゴリズムを記述する。ディープニューラルネットワークを活用して、複雑な環境コンテキスト内で顕著な物体の検出精度を高めます。

Abstract

顕著な物体の検出は、コンピュータビジョンの領域で急成長している関心分野として浮上しています。しかし、一般的なアルゴリズムは、複雑で多面的な環境の中で顕著な物体を検出する場合、精度が低下します。この差し迫った懸念に照らして、この記事では、複雑な環境内の顕著なオブジェクトを検出することを目的としたエンドツーエンドのディープニューラルネットワークを紹介します。この研究では、複雑な環境内の顕著な物体を検出することを目的としたエンドツーエンドのディープニューラルネットワークが導入されています。提案されたネットワークは、ピクセルレベルのマルチスケール全畳み込みネットワークと深層符号化器デコーダーネットワークという2つの相互に関連するコンポーネントで構成されており、コンテキストセマンティクスを統合してマルチスケール特徴マップ間の視覚的なコントラストを生成すると同時に、深層および浅い画像特徴を採用してオブジェクト境界識別の精度を向上させます。全結合条件付き確率場(CRF)モデルの統合により、突出マップの空間的一貫性と等高線描写がさらに強化されます。提案されたアルゴリズムは、SODおよびECSSDデータベース上の10の最新のアルゴリズムに対して広範囲に評価されています。評価結果は、提案アルゴリズムが精度と精度の点で他のアプローチを凌駕していることを示しており、複雑な環境下での顕著な物体検出における有効性を確立しています。

Introduction

顕著な物体検出は、人間の視覚的注意を模倣し、背景情報を抑制しながら重要な画像領域を迅速に識別します。この手法は、画像トリミング¹、セマンティックセグメンテーション²、画像編集³などのタスクの前処理ツールとして広く採用されています。背景の置換や前景の抽出などのタスクを合理化し、編集の効率と精度を向上させます。さらに、ターゲットのローカリゼーションを強化することで、セマンティックセグメンテーションを支援します。顕著な物体検出が計算効率を高め、メモリを節約する可能性は、その重要な研究と応用の見通しを強調しています。

何年にもわたって、顕著な物体検出は、初期の従来のアルゴリズムからディープラーニングアルゴリズムの組み込みへと進化してきました。これらの進歩の目的は、顕著な物体検出と人間の視覚メカニズムの間のギャップを狭めることでした。これにより、顕著な物体検出の研究に深層畳み込みネットワークモデルが採用されました。Borji et ^al.4 は、画像の根本的な特徴に依存する古典的な従来のアルゴリズムのほとんどを要約し、一般化しました。検出精度はいくらか向上したものの、複雑な環境で顕著な物体を検出するには、手作業による経験と認知が引き続き課題となっています。

畳み込みニューラルネットワーク(CNN)の使用は、顕著な物体検出の分野で普及しています。これに関連して、深層畳み込みニューラルネットワークは、自律学習による重みの更新に利用されます。畳み込みニューラルネットワークは、カスケード畳み込み層とプーリング層を使用して画像から文脈的意味を抽出するために採用されており、複雑な画像特徴をより高いレベルで学習することを可能にし、異なる環境で顕著な物体を検出するためのより高い識別能力と特性評価能力を備えています。

2016年、完全畳み込みニューラルネットワーク⁵ は、突出物検出の一般的なアプローチとして大きな牽引力を獲得し、研究者はこれに基づいてピクセルレベルの突出物検出を開始しました。多くのモデルは通常、既存のネットワーク(VGG16⁶、ResNet⁷など)上に構築されており、画像表現を強化し、エッジ検出の効果を強化することを目的としています。

Liuら8は、学習済みのニューラルネットワークをフレームワークとして使用して画像をグローバルに計算し、階層ネットワークを使用してオブジェクトの境界を精緻化しました。2つのネットワークの組み合わせは、最終的な深層顕著性ネットワークを形成します。これは、以前に取得した突出マップを事前知識としてネットワークに繰り返し入力することで実現されました。Zhang et ^al.9 は、浅層から深層へ、深層から浅層への双方向情報伝達を伴うディープネットワークを用いて、画像の意味情報と空間情報を効果的に融合させました。相互学習深層モデルを用いた突出物体の検出は、Wuらによって提唱された¹⁰。このモデルは、畳み込みニューラルネットワーク内のフォアグラウンドとエッジの情報を利用して、検出プロセスを容易にします。Li et ^al.11は、ニューラルネットワークの「ホールアルゴリズム」を採用して、顕著な物体検出のコンテキストでディープニューラルネットワークの多様な層の受容野を修正するという課題に取り組みました。ただし、オブジェクトエッジの取得にはスーパーピクセルセグメンテーションが使用されるため、計算労力と計算時間が大幅に増加します。Ren et ^al.12は、顕著な物体を検出するためのマルチスケールエンコーダ・デコーダネットワークを考案し、畳み込みニューラルネットワークを利用して深い特徴と浅い特徴を効果的に組み合わせました。物体検出における境界の曖昧さという課題は、このアプローチによって解決されますが、情報のマルチスケール融合により、必然的に計算要求が高まります。

文献^{レビュー13} では、顕著性検出を従来の手法から深層学習の手法までまとめ、その起源から深層学習の時代までの顕著性ターゲット検出の進化を非常に明確に見ることができると提案しています。文献¹⁴において、良好な性能を有する様々なRGB−Dベースの突出物検出モデルが提案されている。上記の文献では、顕著性オブジェクト検出のためのさまざまなタイプのアルゴリズムをレビューおよび分類し、それらのアプリケーションシナリオ、使用されるデータベース、および評価メトリックについて説明します。また、本稿では、提案されたアルゴリズムの定性的および定量的分析を、提案されたデータベースと評価指標に関して提供します。

上記のすべてのアルゴリズムは、公共のデータベースで目覚ましい結果を得ており、複雑な環境で顕著な物体を検出するための基盤を提供しています。この分野では、国内外で多くの研究成果が挙げられていますが、まだ課題があります。(1)従来の非深層学習アルゴリズムは、色、質感、周波数などの手作業でラベル付けされた特徴に依存しているため、精度が低くなる傾向があり、主観的な経験や知覚の影響を受けやすい。その結果、顕著な物体検出機能の精度が低下します。従来の非ディープラーニングアルゴリズムを使用して複雑な環境で顕著なオブジェクトを検出することは、複雑なシナリオを処理するのが難しいため困難です。(2)従来の突出物体検出法は、色、質感、頻度などの手作業でラベル付けされた特徴に依存しているため、精度に限界がありました。さらに、領域レベルの検出は計算コストが高く、多くの場合、空間的な一貫性が無視され、オブジェクトの境界の検出が不十分になる傾向があります。これらの問題に対処するには、顕著な物体の検出精度を高める必要があります。(3)複雑な環境での顕著な物体の検出は、ほとんどのアルゴリズムにとって課題となります。ほとんどの顕著な物体検出アルゴリズムは、可変的な背景(類似した背景色と前景色、複雑な背景テクスチャなど)を持つますます複雑化する突出物体検出環境、一貫性のない検出物体サイズ、前景と背景のエッジの不明確な定義などの多くの不確実性により、深刻な課題に直面しています。

現在のアルゴリズムのほとんどは、背景色と前景色が類似している複雑な環境、複雑な背景テクスチャ、ぼやけたエッジなど、顕著なオブジェクトの検出精度が低くなっています。現在の深層学習ベースの突出物アルゴリズムは、従来の検出方法よりも高い精度を示していますが、それらが利用する基礎となる画像特徴は、セマンティック特徴を効果的に特徴付けるにはまだ不十分であり、パフォーマンスに改善の余地があります。

要約すると、この研究は、複雑な環境での突出物検出の精度を高め、ターゲットエッジを改善し、セマンティック特徴をよりよく特徴付けることを目的として、顕著な物体検出アルゴリズム用のエンドツーエンドのディープニューラルネットワークを提案します。(1)第1のネットワークは、VGG16をベースネットワークとし、その5つのプーリング層を「ホールアルゴリズム」¹¹を用いて修正する。ピクセルレベルのマルチスケール完全畳み込みニューラルネットワークは、さまざまな空間スケールから画像の特徴を学習し、ディープニューラルネットワークのさまざまな層にわたる静的受容野の課題に対処し、フィールド内の重要な焦点領域での検出精度を向上させます。(2)突出した物体の検出精度を向上させるための最近の取り組みは、VGG16などのより深いニューラルネットワークを活用して、エンコーダネットワークから深度特徴量を抽出し、デコーダネットワークから浅い特徴量の両方を抽出することに焦点を当てています。このアプローチは、特に背景が可変で、オブジェクトのサイズが一定でなく、前景と背景の境界が不明瞭な複雑な環境において、オブジェクト境界の検出精度を効果的に向上させ、セマンティック情報を改善します。(3)近年、突出物体検出の精度向上に向けた取り組みでは、符号化器ネットワークから深層特徴量を抽出し、デコーダネットワークから浅い特徴量を抽出するために、VGG16を含む深層ネットワークの使用が強調されている。このアプローチは、特に背景、オブジェクトのサイズが異なり、前景と背景の境界が不明瞭な複雑な環境において、オブジェクト境界の検出が向上し、セマンティック情報が増えることを実証しています。さらに、全結合条件付き確率場 (CRF) モデルの統合が実装され、突出マップの空間的一貫性と等高線精度が強化されています。このアプローチの有効性は、複雑な背景を持つSODおよびECSSDデータセットで評価され、統計的に有意であることがわかりました。

関連作品
Fu et ^al.15 は、顕著な物体の検出に RGB と深層学習を使用した共同アプローチを提案しました。Lai et ^al.16 は、顕著な物体検出のための弱教師ありモデルを導入し、注釈から顕著性を学習し、主に落書きラベルを利用して注釈時間を節約しました。これらのアルゴリズムは、顕著性オブジェクト検出のための2つの相補的なネットワークの融合を提示しましたが、複雑なシナリオ下での顕著性検出に関する詳細な調査が欠けています。Wang et ^al.17 は、ニューラルネットワークの特徴をボトムアップとトップダウンの両方で 2 モード反復融合し、収束するまで前の反復の結果を段階的に最適化するように設計しました。Zhang et ^al.18 は、浅い層から深い層へ、深い層から浅い層への双方向の情報伝達を伴うディープネットワークを用いて、画像の意味情報と空間情報を効果的に融合させました。相互学習深層モデルを用いた突出物体の検出は、Wuらによって提唱された¹⁹。このモデルは、畳み込みニューラルネットワーク内のフォアグラウンドとエッジの情報を利用して、検出プロセスを容易にします。これらのディープニューラルネットワークベースの突出物検出モデルは、公開されているデータセットで目覚ましい性能を達成し、複雑な自然シーンでの突出物検出を可能にしています。それにもかかわらず、さらに優れたモデルを設計することは、この研究分野における重要な目的であり、この研究の主な動機として機能します。

全体の枠組み
図1に示すように、提案されたモデルの概略表現は、主にVGG16アーキテクチャから派生したもので、ピクセルレベルのマルチスケール完全畳み込みニューラルネットワーク(DCL)と深層符号化器デコーダネットワーク(DEDN)の両方が組み込まれています。このモデルでは、VGG16 の最終プーリング層と全結合層がすべて除去され、入力イメージの次元 W × H が調整されます。操作メカニズムには、DCLを介した入力画像の初期処理が含まれ、深い特徴の抽出が容易になり、浅い特徴はDEDNネットワークから取得されます。これらの特性の融合は、その後、完全に接続された条件付きランダム場(CRF)モデルにかけられ、生成された顕著性マップの空間的一貫性と等高線精度を増強します。

モデルの有効性を確認するために、複雑な背景を持つ^SOD20およびECSSD21データセットでテストと検証を受けました。入力画像がDCLを通過した後、さまざまな受容野を持つさまざまなスケールの特徴マップが得られ、コンテキストセマンティクスが組み合わされて、次元間コヒーレンスを持つW×Hの顕著なマップが生成されます。DCL は、7 x 7 カーネルの畳み込み層のペアを使用して、元の VGG16 ネットワークの最終プーリング層を置き換え、特徴マップ内の空間情報の保存を強化します。これは、文脈的セマンティクスと組み合わされて、次元間コヒーレンスを持つW×Hの顕著な写像を生成します。同様に、Deep Encoder-Decoder Network (DEDN) は、デコーダーに 3 x 3 カーネルを持つ畳み込み層を利用し、最後の復号化モジュールの後に 1 つの畳み込み層を利用します。画像の深い特徴と浅い特徴を利用して、W×Hの空間次元を持つ顕著なマップを生成することができ、不明瞭なオブジェクトの境界の課題に対処します。この研究では、DCLモデルとDEDNモデルを統合ネットワークに統合する顕著な物体検出の先駆的な手法が説明されています。これら 2 つの深層ネットワークの重みは、トレーニングプロセスを通じて学習され、結果の顕著性マップがマージされ、全結合条件付きランダム場 (CRF) を使用して調整されます。このリファインメントの主な目的は、空間の一貫性と等高線の位置を特定することです。

ピクセルレベルのマルチスケール完全畳み込みニューラルネットワーク
VGG16 アーキテクチャは当初、5 つのプーリング層で構成されており、各層のストライドは 2 でした。各プーリング層は、画像サイズを圧縮してチャネル数を増やし、より多くのコンテキスト情報を取得します。DCLモデルは文献¹³に触発され、VGG16のフレームワークを改良したものである。本稿では、図2に示すように、深層畳み込みニューラルネットワークであるVGG16のアーキテクチャ内で、ピクセルレベルのDCLモデル¹¹を使用します。最初の 4 つの最大プーリング層は、3 つのカーネルで相互接続されています。最初のカーネルは 3 × 3 × 128 です。2 番目のカーネルは 1 × 1 × 128 です。3 番目のカーネルは 1 × 1 × 1 です。3つのカーネルに接続された最初の4つのプーリング層(各サイズは元の画像の8分の1に等しい)の後に特徴マップのサイズを均一にするために、これら4つの最大のプーリング層に接続された最初のカーネルのステップサイズをそれぞれ4、2、1、および1に設定します。

異なるカーネルにおける元の受容野を保持するために、文献¹¹ で提案されている「ホールアルゴリズム」を使用して、ゼロを追加することによってカーネルのサイズを拡張し、したがってカーネルの完全性を維持する。これら 4 つの特徴マップは、異なるステップサイズで最初のカーネルに接続されています。その結果、最終段階で生成されるフィーチャマップは、同じ寸法を持ちます。4つの特徴マップは、それぞれがさまざまなサイズの受容野を表す、異なるスケールから得られたマルチスケール特徴のセットを構成します。4つの中間層から得られた特徴マップは、VGG16から得られた究極の特徴マップと連結され、5チャンネルの出力が生成されます。その後の出力は、シグモイド活性化関数を持つ1 × 1 × 1カーネルにさらされ、最終的に突出マップ(元の画像の8分の1の解像度)を生成します。画像は、バイリニア補間を使用してアップサンプリングおよび拡大され、顕著性マップと呼ばれる結果の画像が初期画像と同じ解像度を維持するようにします。

深層エンコーダ/デコーダネットワーク
同様に、VGG16ネットワークはバックボーンネットワークとして採用されています。VGG16は、浅い特徴マップチャネルの数が少ないが高解像度であり、深い特徴チャネルの数が多いが解像度が低いという特徴があります。層のプーリングとダウンサンプリングにより、深層ネットワークの計算速度は向上しますが、特徴マップの解像度は低下します。この問題に対処するために、文献¹⁴の分析に続いて、エンコーダネットワークを使用して、元のVGG16の最後のプーリング層の完全な接続性を変更します。この変更には、7 × 7 個のカーネルを持つ 2 つの畳み込み層への置き換えが含まれます (畳み込みカーネルが大きいほど受容野が増加します)。両方の畳み込みカーネルには、正規化 (BN) 演算と修正線形ユニット (ReLU) が装備されています。この調整により、画像空間情報をより適切に保持するエンコーダー出力特徴マップが得られます。

エンコーダーは、突出したオブジェクトのグローバルな位置推定のための高レベルのイメージセマンティクスを改善しますが、その顕著なオブジェクトの境界ぼやけの問題は効果的に改善されません。この問題に取り組むために、エッジ検出作業¹²に触発された深い特徴と浅い特徴を融合し、図3に示すような符号化器-復号器ネットワークモデル(DEDN)を提案します。エンコーダーアーキテクチャは、最初の 4 つのカーネルと相互接続された 3 つのカーネルで構成され、デコーダーは、最大プーリング層から取得した最大値を使用して特徴マップの解像度を体系的に強化します。

突出した物体を検出するためのこの革新的な方法論では、デコーダーフェーズ中に、3 × 3カーネルの畳み込み層がバッチ正規化層および適合線形ユニットと組み合わせて利用されます。デコーダアーキテクチャ内の最終的な復号モジュールの結論として、孤立チャネル畳み込み層が採用され、空間次元W×Hの顕著なマップが調達される。顕著なマップは、エンコーダとデコーダのモデルが協調的に融合して結果を生成し、2つの補完的な融合、つまり深い情報と浅い情報の相補的な融合によって生成されます。これにより、突出対象物の正確な位置特定を実現し、受容野を増大させるだけでなく、画像の詳細情報を効果的に保持し、突出対象物の境界を強化します。

統合メカニズム
エンコーダアーキテクチャは 3 つのカーネルで構成されており、これらは VGG16 モデルの最初の 4 つの最大プーリング層に関連付けられています。対照的に、デコーダーは、対応するプーリング層から収集された最大値を利用することにより、アップサンプリング層から取得された特徴マップの解像度を漸進的に増強するように意図的に定式化されています。次に、3 x 3カーネルを利用した畳み込み層、バッチ正規化層、および修正された線形ユニットがデコーダーで利用され、続いてシングルチャネル畳み込み層が続き、次元W×Hの顕著なマップが生成されます。2 つの深層ネットワークの重みは、交互の学習サイクルを通じて学習されます。最初のネットワークのパラメータは固定され、2番目のネットワークのパラメータは合計50サイクルのトレーニングを受けました。プロセス中、融合に使用される顕著性マップ(^S1および ^S2)の重みは、ランダムな勾配を介して更新されます。損失関数¹¹ は、

Equation 1 (1)

指定された式では、記号 G は手動でラベル付けされた値を表し、 W はネットワークパラメータの完全なセットを示します。重みβ_iは、計算プロセスにおける突出画素と非突出画素の比率を調節するバランス係数として機能する。

画像 I は、次の 3 つのパラメーターによって特徴付けられます。 |私|、|私は|_- と |私は|₊ は、それぞれピクセルの総数、突出していないピクセルの数、および突出したピクセルの数を表します。 Equation 2

上記2つのネットワークから得られた顕著マップは、隣接する画素のコヒーレンスを考慮していないため、空間的コヒーレンスを改善するために、全結合画素レベルの顕著性精緻化モデル^CRF15 を用いる。エネルギー方程式¹¹ は、以下の通りであり、バイナリ画素のラベリング問題を解く。

Equation 3 (2)

ここで、L は、すべてのピクセルに割り当てられたバイナリラベル (突出値または非突出値) を示します。変数P(l_i)は、所与の画素xiに特定のラベルliが割り当てられる可能性_を示し、画素xi_が顕著性である可能性を示す。初めに、P(1)=S_iおよびP(0)= 1 - S_iであり、ここで、Siは、融合顕著性マップS内の画素_xiにおける顕著性値を示す。θ_i,j(l_i,l _j) は、次のように定義されるペアワイズポテンシャルです。

Equation 4 (3)

その中で、l_i≠l_jであれば、μ(_l _{i,l j})=1であり、そうでなければμ(l_i,l _j)=0である。θ_i,j の計算には 2 つのカーネルの利用が含まれ、初期カーネルは画素位置 P と画素強度 I の両方に依存します。これにより、類似した色のピクセルが近接し、同等の顕著性値を示すようになります。_α と σ_β σ の 2 つのパラメーターは、色の類似性と空間的近接性が結果にどの程度影響するかを制御します。2 番目のカーネルの目的は、孤立した小さな領域を排除することです。エネルギーの最小化は、条件付きランダム場(CRF)分布の平均場を迅速化する高次元フィルタリングによって達成されます。計算時に、S_crfとして示される突出マップは、検出された突出物に関して強化された空間的一貫性と等高線を示します。

実験構成
本稿では、VGG16ニューラルネットワークに基づく顕著なターゲット検出のためのディープネットワークをPythonを用いて構築します。提案されたモデルは、SOD²⁰ および ECSSD²¹ データセットを使用して他の方法と比較されます。SOD画像データベースは、複雑で雑然とした背景、前景と背景の色の類似性、および小さなオブジェクトサイズで知られています。このデータセットの各画像には、定量的および定性的なパフォーマンス評価のために、手動でラベル付けされた真の値が割り当てられます。一方、ECSSDデータセットは、主にインターネットから提供された画像で構成されており、画像の背景と目立つ物体のコントラストが低い、より複雑でリアルな自然のシーンを特徴としています。

この論文でモデルを比較するために使用した評価指標には、一般的に使用される適合率-再現率曲線、 F_β、および E_MAE が含まれます。予測された顕著性マップを定量的に評価するために、顕著性マップを二値化するための閾値を0から255に変更することによって、精度−再現率(P−R)曲線²² が採用される。 F_βは、二値化突出マップと真値マップから導出された精度と再現率の式で計算された包括的な評価指標です。

Equation 5 (4)

ここで、β は精度と再現率を調整するための重みパラメータで、β² = 0.3 に設定します。 E_MAEの計算は、後続の数式で定義されるように、結果の顕著性マップとグラウンドトゥルースマップの間の平均絶対誤差を計算することと同等です。

Equation 6 (5)

T_s(u,v) は突出写像 (u,v) ピクセルの抽出された値を表し、T_G(u,v) は真の写像 (u,v) ピクセルの対応する値を表します。

Subscription Required. Please recommend JoVE to your librarian.

Protocol

1. 実験のセットアップと手順

事前学習済みの VGG16 モデルを読み込みます。
注: 最初のステップは、Keras ライブラリ⁶ から事前トレーニング済みの VGG16 モデルをロードすることです。
1. PyTorch などの一般的なディープラーニングライブラリ ( 材料表を参照) を使用して、事前トレーニング済みの VGG16 モデルを Python で読み込むには、次の一般的な手順に従います。
  1. トーチをインポートします。torchvision.models をモデルとしてインポートします。
  2. 事前学習済みの VGG16 モデルを読み込みます。vgg16_model = models.vgg16(pretrained=True) です。
  3. VGG16 モデルの要約が "print(vgg16_model)" であることを確認します。
DCL モデルと DEDN モデルを定義します。
1. DCL アルゴリズムの擬似コードとして、 入力: イメージデータセット SOD と 出力: トレーニング済み DCL モデルを指定します。
  1. VGG16 バックボーンネットワークを使用して DCL モデル を初期化します。
  2. 画像データセット D の前処理 (サイズ変更、正規化など) を行います。
  3. データセットを学習セットと検証セットに分割します。
  4. DCL モデルを学習させるための損失関数 (バイナリクロスエントロピーなど) を定義します。
  5. トレーニングのハイパーパラメーターを設定します:学習率(0.0001)、トレーニングエポックセット数(50)、バッチサイズ(8)、オプティマイザー(Adam)。
  6. DCL モデルのトレーニング: 定義されたエポック数のエポックごとに、トレーニングセット内のバッチごとに実行します。次のように入力します。
    1. フォワードパス:バッチ画像をDCLモデルにフィードします。予測顕著性マップとグラウンドトゥルースマップを使用して損失を計算します。
    2. バックワードパス: 勾配降下終了を使用してモデルパラメーターを更新します。検証損失とその他の評価メトリックを検証セット側で計算します。
  7. 学習済みの DCL モデルを保存します。
  8. 学習済みの DCL モデルを返します。
2. DEDN アルゴリズムの擬似コードの場合、入力: 画像データセット (X)、グラウンドトゥルース顕著性マップ (Y)、トレーニング反復回数 (N)。
  1. エンコーダーネットワークの場合、エンコーダーがVGG16スケルトンに基づいており、後述するように変更されていることを確認します。
    注:encoder_input=入力(形状= input_shape)
    encoder_conv1 = Conv2D(64, (3, 3), activation='relu', padding='same')(encoder_input)
    encoder_pool1 = MaxPooling2D((2, 2))(encoder_conv1)
    encoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(encoder_pool1)
    encoder_pool2 = MaxPooling2D((2, 2))(encoder_conv2)
    encoder_conv3 = Conv2D(256, (3, 3), activation='relu', padding='same')(encoder_pool2)
    encoder_pool3 = MaxPooling2D((2, 2))(encoder_conv3)
  2. デコーダーネットワークの場合、デコーダーが VGG16 スケルトンに基づいており、変更が加えられていることを確認します (後述)。
    注:decoder_conv1 = Conv2D(256、(3、3)、activation='relu'、padding='same')(encoder_pool3)
    decoder_upsample1 = UpSampling2D((2, 2))(decoder_conv1)
    decoder_conv2 = Conv2D(128, (3, 3), activation='relu', padding='same')(decoder_upsample1)
    decoder_upsample2 = UpSampling2D((2, 2))(decoder_conv2)
    decoder_conv3 = Conv2D(64, (3, 3), activation='relu', padding='same')(decoder_upsample2)
    decoder_upsample3 = UpSampling2D((2, 2))(decoder_conv3)
    decoder_output = Conv2D(1, (1, 1), activation='sigmoid', padding='same')(decoder_upsample3)
3. DEDN モデルを定義します。model = モデル (入力 = encoder_input、出力 = decoder_output)。
4. モデルをコンパイルします。model.compile (オプティマイザ = adam, loss = binary_crossentropy) を使用します。
5. [トレーニングループ] を選択します。
  注:range(N)での反復の場合:#画像とグラウンドトゥルースマップのバッチをランダムに選択します。batch_X、batch_Y = randomly_select_batch(X, Y, batch_size) です。
  1. バッチでモデルをトレーニングします。損失 = model.train_on_batch(batch_X, batch_Y) です。監視のために損失を出力します。
6. トレーニング済みのモデルを保存します。model.save ('dedn_model.h5') です。
組み合わせる。
1. DCL ネットワークと DEDN ネットワークの出力を結合し、全結合条件付き確率場 (CRF) モデルを使用して顕著性マップを調整します。

2. 画像処理

[run code] をクリックして GUI インターフェイスを表示します (図 4)。
開いている画像をクリックしてパスを選択し、検出する画像を選択します。
表示画像をクリックすると、検出対象として選択された画像が表示されます。
[検出の開始]をクリックして、選択した画像を検出します。
注意: 検出結果は、検出された画像、つまり突出したオブジェクトの結果とともに表示されます(図5)。
保存パスを選択して、顕著なオブジェクト検出の画像結果を保存します。

Subscription Required. Please recommend JoVE to your librarian.

Representative Results

本研究では、ピクセルレベルのマルチスケール完全畳み込みネットワークと深層符号化器デコーダネットワークという2つの相補的なネットワークで構成されるエンドツーエンドの深層ニューラルネットワークを紹介します。最初のネットワークは、コンテキストセマンティクスを統合して、マルチスケールの特徴マップから視覚的なコントラストを導き出し、異なる層にわたるディープニューラルネットワークの固定受容野の課題に対処します。2 番目のネットワークは、深い画像特徴と浅い画像特徴の両方を利用して、ターゲットオブジェクトの境界がぼやけるという問題を軽減します。最後に、全結合条件付き確率場 (CRF) モデルを適用して、顕著性マップの空間的一貫性と等高線を改善します。

この研究では、提案されたアルゴリズムと、この分野の既存の10のアルゴリズムとの間の定性的および定量的な比較を実施します。実験結果は、提案されたアルゴリズムが重要な物体検出の精度を高める上で有効であることを実証しています。さらに、このアルゴリズムは、電力視覚タスクへの潜在的な適用可能性を示しており、インテリジェント電力網のドメイン内のさまざまな複雑な環境で有望な見通しを提供します。

アブレーション実験
現在の調査では、アルゴリズムの有効性を評価するために、SODデータベースで一連のアブレーション実験を実行しました。上記の実験の結果を表1に詳述します。(1)モデルの比較に使用される評価指標は、適合率-再現率曲線²²、 F_β、および E_MAEです。表1 (No.1)の結果は、アルゴリズムからDCLモデルを削除すると、 F_β値が減少し、 E_MAE値が増加することを示しています。前述の観察結果は、動的畳み込み層(DCL)が、動的受容野を多様な層に統合することにより、深層ニューラルネットワークの有効性を強化する能力を持っている可能性を示唆しており、その結果、マルチスケール特徴マップの視覚的なコントラストを高めることができます。(2)表1(No.2)から、本論文のアルゴリズムはDEDN構造を削除するだけであり、表1(No.3)のモジュール全体と比較して、表1(No.2)のF_β 値が減少し、E_MAE値が増加することがわかり、DEDNがプロミネンスを効果的かつ正確に特定し、受容野を増やすことができることを示しています。また、画像の詳細情報を保持しながら、プロミネンスの境界を強化します。

図6 は、アブレーション実験の可視化結果を示しています。画像は左から右に並べられ、元の画像、DCLアルゴリズムの結果、DEDNアルゴリズムの結果、この論文で提案されたアルゴリズム、および対応するグラウンドトゥルース画像を示しています。図6を詳しく見ると、DCLアルゴリズムはSODデータベース内の画像を検出するときにターゲット境界を記述する傾向があるが、背景を効果的にフィルタリングするのに苦労していることは明らかです。一方、DEDN アルゴリズムはターゲット境界を強化しますが、バックグラウンド冗長情報を抑制するという課題に直面します。これに対し、本論文で提案するアルゴリズムは、これら2つのアルゴリズムの長所を補完的に組み合わせることで、複雑な背景からの冗長性情報を抑制しながら、ターゲットを効果的に強調しています。この論文の結果は、どちらのアルゴリズムのみの結果をも凌駕しています。

他の高度なアルゴリズムとの比較
提案アルゴリズムの性能を評価するために、GMR²³、GS²⁴、SF²⁵、PD²⁶、SS²⁷、DRFI²⁸、MDF²⁹、ELD³⁰、DHS³¹、およびDCL¹¹の11の顕著な突出物体検出方法との比較分析を実施しました。その中で、GMR²³、GS²⁴、SF²⁵、PD²⁶、SS²⁷、および DRFI²⁸ は、多くの深部顕著性モデルでベンチマークとして一般的に採用されている、優れたパフォーマンスを発揮する従来の教師なし顕著性検出方法です。残りの4つの手法は、深層畳み込みニューラルネットワークを活用し、それぞれの研究文献で優れた性能を実証しています。この研究で採用された評価指標には、PR曲線、最大Fメジャー値、および平均絶対誤差(MAE)が含まれます。選択されたテストデータセットは、SODおよびECSSDデータセットで構成されます。

定量的比較
図7 は、この研究で提案されたアルゴリズムを、SODおよびECSSDの公開画像データセット上の他の10の顕著な物体検出方法と比較した適合率-再現率(PR)曲線を示しています。この曲線は、この研究で提案されたアルゴリズムが他の10のアルゴリズムよりも優れていることを明確に示しており、それによって、この論文で提示された方法の優れた検出性能が検証されています。特に注目すべきは、再現率が 1 に近づいても高い精度を維持するこのアルゴリズムの能力であり、整合性を確保しながら視覚的に目立つオブジェクトの正確なセグメンテーションを示しています。表2 は、SODとECSSDのテストデータセットの手法を定量的に比較したもので、主にDCLネットワークとDEDNネットワークの相補的な組み合わせに起因する最大Fメジャー(F_β)と平均絶対誤差(E_MAE)の点で、アルゴリズムがより良いパフォーマンスを達成していることを示しています。

定性比較
さらに、図8に示すように、分析した技術の視覚的な結果を並置するために、定性評価を実施しました。これらの図は、左から右に、元の画像から始まり、GMR²³、GS²⁴、SF²⁵、PD²⁶、SS²⁷、DRFI²⁸、MDF²⁹、ELD³⁰、DHS³¹、DCL¹¹、この記事で提案されているアルゴリズム、およびグラウンドトゥルースマップと並んでいる一連の画像を示しています。

図8Aでは、SODデータセットの定性的な比較が示されています。列 1 の元の画像は、背景要素と前景要素の間で比較的類似した色分布を示していることは明らかです。さらに、1 番目と 3 番目の顕著性マップは、より複雑な背景テクスチャを提示し、顕著なオブジェクトの検出を妨げる可能性があります。この研究で概説したアルゴリズムは、複雑な環境における顕著な物体の検出において、他の既存のアルゴリズムの性能を凌駕する大幅な改善を示しています。列 1 の最初の画像、特に 2 番目の画像には、前景の動物と混ざり合った背景の枝が含まれており、前景のオブジェクトを正しく評価することが困難になっています。本研究で提唱されたアルゴリズムは、背景干渉の問題にうまく対処し、前景の物体領域を効果的に強調表示します。この実験は、提案されたアルゴリズムが複雑な背景を持つ画像を処理する際に高い精度と精度を達成することを実証しています。

図8Bでは、ECSSDデータセット内の定性的な比較が示されており、さまざまな顕著な物体検出方法の視覚的なコントラスト結果を示しています。この知見は、提案アルゴリズムが多様で複雑な自然シーンにおいて優れた検出性能を達成できることを示しています。これらの自然シーン画像には、第1および第2の画像では画像境界に接触する顕著な物体や、第3の画像では前景と背景の間のコントラストと色の類似性が低いなどのシナリオが含まれます。これらの視覚化された結果を通じて、ここで提案されているアルゴリズムは、明確なオブジェクトの境界を確保しながら、完全な顕著なオブジェクトを効果的に強調表示します。目立つオブジェクトの規模に関係なく、大小を問わず、アルゴリズムは一貫して高いセグメンテーション精度を示し、その有効性を検証しています。さらに、他の方法と比較して、この研究で提示されたアルゴリズムは、より高い堅牢性を示し、顕著性領域(またはバックグラウンド領域)での誤検出を軽減します。

図1:全体構造の枠組み提案されたモデルの概略図。この図の拡大版をご覧になるには、ここをクリックしてください。

図2:ピクセルレベルのDCLモデル。ピクセルレベルのDCLモデルは、深層畳み込みニューラルネットワークであるVGG16のアーキテクチャ内で使用されます。最初の 4 つの最大プーリング層は、3 つのカーネルで相互接続されています。この図の拡大版をご覧になるには、ここをクリックしてください。

図3:符号化・復号ネットワークモデル(DEDN)。エッジ検出作業から着想を得た深い特徴と浅い特徴を融合し、符号化器・復号器ネットワークモデル(DEDN)を提案します。この図の拡大版をご覧になるには、ここをクリックしてください。

図4:GUIインターフェースコードが実行され、操作が簡単なGUIインターフェイスが生成されます。この図の拡大版をご覧になるには、ここをクリックしてください。

図5:GUIインターフェースのデモ GUIインターフェースによる表示により、テスト画像の結果を簡単に比較できます。この図の拡大版をご覧になるには、ここをクリックしてください。

図6:アブレーション実験の可視化結果。 (A)元の画像、(B)DCLアルゴリズム、(C)DEDNアルゴリズム、(D)現在の研究で使用したアルゴリズム、(E)対応するグラウンドトゥルース画像を左から右に示しています。図6からわかるように、(B)DCLアルゴリズムは画像検出時にターゲット境界しか記述できず、背景のフィルタリングが困難です。(C)DEDNアルゴリズムは、ターゲット境界を強化する効果を有するが、背景冗長情報を抑制することも同様に困難である。(D)本論文のアルゴリズムは、これら2つのアルゴリズムを補完的に組み合わせ、複雑な背景の冗長性情報を抑制しながらターゲットを強調しています。この図の拡大版をご覧になるには、ここをクリックしてください。

図7:P-R曲線。 (A)P-R曲線はSODデータベースにあり、(B)P-R曲線はECSSDデータベースにあります。本研究のアルゴリズムの(A)と(B)のP-R曲線は、他の10種類のアルゴリズムよりも高く、本論文のアルゴリズムはこれら10種類のアルゴリズムと比較して精度が高いことが証明されています。この図の拡大版をご覧になるには、ここをクリックしてください。

図8:定性的な比較。 SODデータベース(A)とECSSDデータベース(B)の異なる顕著な物体検出アルゴリズムの定性比較。元の入力画像は、左から右に、GMR、GS、SF、PD、SS、DRFI、MDF、ELD、DHS、およびDCL、本研究で提案されたアルゴリズム、およびグラウンドトゥルースマップで表示されます。(A)に見られるように、概説されたアルゴリズムは、複雑な環境における顕著な物体の検出において、他の既存のアルゴリズムの性能を凌駕する大幅な改善を提供します。(B)に見られるように、本研究で提案したアルゴリズムは、突出部(またはバックグラウンド領域)の誤検出を低減するため、他の手法と比較してロバスト性が高い。この図の拡大版をご覧になるには、ここをクリックしてください。

いいえ。	モジュール設定	F_β	_Eメイ
NO.1	DCL のみの削除	0.835	0.117
NO.2	DEDN のみの削除	0.832	0.126
NO.3	完全なモジュール	0.854	0.110

表1:アブレーション実験の結果。

モデル	芝		ECSSDの
モデル	F_β	_Eメイ	F_β	_Eメイ
GMRの	0.740	0.148	0.476	0.189
GSの	0.677	0.188	0.355	0.344
SFの	0.779	0.150	0.309	0.230
PDの	0.720	0.162	0.358	0.248
SSの	0.574	0.225	0.268	0.344
DRFIの	0.801	0.127	0.516	0.166
MDFの	0.709	0.150	0.832	0.105
ELD端子	0.737	0.154	0.869	0.078
国土安全保障省(DHS)	0.812	0.127	0.907	0.059
DCLの	0.786	0.131	0.901	0.068
この研究	0.854	0.110	0.938	0.044

表 2: 2 つの画像データセットにわたるさまざまなアルゴリズムの最大 F メジャー値 (F_β) と MAE (平均絶対誤差) 値。

Subscription Required. Please recommend JoVE to your librarian.

Discussion

この記事では、複雑な環境で顕著な物体を検出するために特別に設計されたエンドツーエンドのディープニューラルネットワークを紹介します。このネットワークは、ピクセルレベルのマルチスケール完全畳み込みネットワーク (DCL) と深層符号化器デコーダーネットワーク (DEDN) という 2 つの相互接続されたコンポーネントで構成されています。これらのコンポーネントは相乗的に機能し、コンテキストセマンティクスを組み込んで、マルチスケールフィーチャマップ内で視覚的なコントラストを生成します。さらに、深い画像と浅い画像の両方の特徴を活用して、物体の境界の描写の精度を向上させます。全結合の条件付きランダム場(CRF)モデルの統合により、顕著性マップと等高線描写の空間的一貫性がさらに強化されます。

この目的を達成するために、VGG16アーキテクチャに基づいて、深層コンテキスト学習(DCL)ネットワークと深層符号化器復号ネットワーク(DEDN)の2つの深層ネットワークが構築されました。操作ステップ1.2で説明したように、DCLを介して処理された入力画像は、異なる受容野によって特徴付けられるさまざまなスケールの特徴マップを生成します。これらのマップは、その後、コンテキストセマンティクスと組み合わされ、最終的に次元間のコヒーレンスを持つ次元W×Hの顕著性マップを生成します。具体的には、^DCL11 は、それぞれが7×7カーネルを備えた一対の畳み込み層を利用して、元のVGG16ネットワークの最終プーリング層を置き換える。この変更は、フィーチャマップ内の空間情報を保持する上で重要です。文脈的セマンティクスと協調して、次元間の一貫性に恵まれた顕著性マップが得られます。

同時に、Deep Encoder-Decoder Network(DEDN)¹⁴ は、デコーダセクションに3×3カーネル畳み込み層を採用し、その後に最後の復号モジュールの後に孤立畳み込み層を採用します。DEDN による深層と浅層の特徴の統合により、空間次元 W × H の顕著性マップの生成が容易になり、不明瞭なオブジェクトの境界に関連する課題に対処できます。本稿で紹介する研究は、運用手順1.3で説明したように、突出した物体を検出するための先駆的な技術を紹介します。DCLモデルとDEDNモデルを、これら2つのディープネットワークの重みを学習し、取得した顕著性マップをマージするトレーニングプロセスを通じて、統一されたネットワークフレームワークに統合します。条件付きランダムフィールド(CRF)を完全結合方式で適用することで、さらに洗練されます。この細分化の主な目的は、空間の一貫性と輪郭の位置を特定することです。

どちらのネットワークも、ニューラルネットワークのバックボーンとしてVGG16アーキテクチャを使用して強化されており、最終的には条件付きランダムフィールド(CRF)を介して融合されています。提案されたアルゴリズムは、複雑な環境下でのターゲット検出の領域で大きな可能性を示していますが、将来の研究イニシアチブは、その計算効率の向上に向けられます。その目的は、検出性能を損なうことなく、優れた処理速度を実現することです。

提案されたアルゴリズムは、SOD²⁰ および ECSSD²¹ データベース上の 10 の最新のアルゴリズムに対して広範な評価を受けます。評価結果は、提案アルゴリズムが精度と精度の点で他のアプローチよりも優れていることを示しており、複雑な環境下での顕著な物体検出における有効性を確立しています。さらに、このアルゴリズムは、電力システムの分野での視覚的タスクへの転用可能性も有望です。これは、絶縁体のセグメンテーションや、インテリジェントパワーグリッド内の複雑な環境での火災の危険性の早期検出などのアプリケーションに大きな可能性を秘めています。

Subscription Required. Please recommend JoVE to your librarian.

Disclosures

著者は何も開示していません。

Acknowledgments

この研究は、2024 Henan Provincial Higher Education Institutions Key Scientific Research Project Funding Program Establishment (プロジェクト番号:24A520053) の支援を受けています。この研究は、河南省の専門創造および統合特性実証コース建設によってもサポートされています。

Materials

Name	Company	Catalog Number	Comments
Matlab	MathWorks	Matlab R2016a	MATLAB's programming interface provides development tools for improving code quality maintainability and maximizing performance. It provides tools for building applications using custom graphical interfaces. It provides tools for combining MATLAB-based algorithms with external applications and languages
Processor	Intel	11th Gen Intel(R) Core (TM) i5-1135G7 @ 2.40GHz	64-bit Win11 processor
Pycharm	JetBrains	PyCharm 3.0	PyCharm is a Python IDE (Integrated Development Environment) a list of required python: modulesmatplotlib skimage torch os time pydensecrf opencv glob PIL torchvision numpy tkinter
PyTorch	Facebook	PyTorch 1.4	PyTorch is an open source Python machine learning library , based on Torch , used for natural language processing and other applications.PyTorch can be viewed both as the addition of GPU support numpy , but also can be viewed as a powerful deep neural network with automatic derivatives .

DOWNLOAD MATERIALS LIST

References

Wang, W. G., Shen, J. B., Ling, H. B. A deep network solution for attention and aesthetics aware photo cropping. IEEE Transactions on Pattern Analysis and Machine Intelligence. 41 (7), 1531-1544 (2018).
Wang, W. G., Sun, G. L., Gool, L. V. Looking beyond single images for weakly supervised semantic segmentation learning. IEEE Transactions on Pattern Analysis and Machine. , (2022).
Mei, H. L., et al. Exploring dense context for salient object detection. IEEE Transactions on Circuits and Systems for Video Technology. 32 (3), 1378-1389 (2021).
Borji, A., Itti, L. State-of-the-art in visual attention modeling. IEEE Transactions on Pattern Analysis and Machine Intelligence. 35 (1), 185-207 (2012).
Fully convolutional networks for semantic segmentation. Long, J., Shelhamer, E., Darrell, T. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3431-3440 (2015).
Simonyan, K., Zisserman, A. Very deep convolutional networks for large-scale image recognition. arXiv preprint. , 1409-1556 (2014).
Deep residual learning for image recognition. He, K., Zhang, X., Ren, S., Sun, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 770-778 (2016).
Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).
A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
Wu, R., et al. A mutual learning method for salient object detection with intertwined multi-supervision. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
Deep contrast learning for salient object detection. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 478-487 (2019).
Ren, Q., Hu, R. Multi-scale deep encoder-decoder network for salient object detection. Neurocomputing. 316, 95-104 (2018).
Wang, W. G., et al. Salient object detection in the deep learning era: An in-depth survey. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (6), 3239-3259 (2021).
Zhou, T., et al. RGB-D salient object detection: A survey. Computational Visual Media. 7, 37-69 (2021).
Fu, K., et al. Siamese network for RGB-D salient object detection and beyond. IEEE Transactions on Pattern Analysis and Machine Intelligence. 44 (9), 5541-5559 (2021).
Lai, Q., et al. Weakly supervised visual saliency prediction. IEEE Transactions on Image Processing. 31, 3111-3124 (2022).
A bi-directional message passing model for salient object detection. Zhang, L., Dai, J., Lu, H., He, Y., Wang, G. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1741-1750 (2018).
A mutual learning method for salient object detection with intertwined multi-supervision. Wu, R. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, , 8150-8159 (2019).
Wang, W., Shen, J., Dong, X., Borji, A., Yang, R. Inferring salient objects from human fixations. IEEE Transactions on Pattern Analysis and Machine Intelligence. 42 (8), 1913-1927 (2019).
Design and perceptual validation of performance measures for salient object segmentation. Movahedi, V., Elder, J. H. 2010 IEEE Computer Society Conference on Computer Vision and Pattern Recognition-Workshops, , 49-56 (2010).
Shi, J., Yan, Q., Xu, L., Jia, J. Hierarchical image saliency detection on extended CSSD. IEEE Transactions on Pattern Analysis and Machine Intelligence. 38 (4), 717-729 (2015).
Frequency-tuned salient region detection. Achanta, R., Hemami, S., Estrada, F., Susstrunk, S. 2009 IEEE Conference on Computer Vision and Pattern Recognition, , 1597-1604 (2009).
Saliency detection via graph-based manifold ranking. Yang, C., Zhang, L., Lu, H., Ruan, X., Yang, M. H. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 3166-3173 (2013).
Wei, Y., et al. Geodesic saliency using background priors. Computer Vision-ECCV 2012. , Springer. Berlin Heidelberg. 29-42 (2012).
What makes a patch distinct. Margolin, R., Tal, A., Zelnik-Manor, L. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 1139-1146 (2013).
Saliency filters: Contrast based filtering for salient region detection. Perazzi, F., Krähenbühl, P., Pritch, Y., Hornung, A. 2012 IEEE Conference on Computer Vision and Pattern Recognition, , 733-740 (2012).
Hou, X., Harel, J., Koch, C. Image signature: Highlighting sparse salient regions. IEEE Transactions on Pattern Analysis and Machine Intelligence. 34 (1), 194-201 (2011).
Salient object detection: A discriminative regional feature integration approach. Jiang, H., et al. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 2083-2090 (2013).
Visual saliency based on multiscale deep features. Li, G., Yu, Y. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 5455-5463 (2015).
Deep saliency with encoded low level distance map and high-level features. Lee, G., Tai, Y. W., Kim, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 660-668 (2016).
Dhsnet: Deep hierarchical saliency network for salient object detection. Liu, N., Han, J. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, , 678-686 (2016).

Engineering

複雑な環境で顕著な物体を検出するためのエンドツーエンドのディープニューラルネットワーク

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Disclosures

Acknowledgments

Materials

References

Tags

Cite this Article

Get cutting-edge science videos from JoVE sent straight to your inbox every month.