Summary

Ein Swin Transformer-basiertes Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern

Published: April 21, 2023
doi:

Summary

In dieser Arbeit wird ein neues Modell zur Detektion von Schilddrüsenknoten in Ultraschallbildern vorgeschlagen, das den Swin Transformer als Rückgrat für die langreichweitige Kontextmodellierung verwendet. Experimente belegen, dass es in Bezug auf Empfindlichkeit und Genauigkeit gut funktioniert.

Abstract

In den letzten Jahren hat die Inzidenz von Schilddrüsenkrebs zugenommen. Die Erkennung von Schilddrüsenknoten ist sowohl für die Erkennung als auch für die Behandlung von Schilddrüsenkrebs von entscheidender Bedeutung. Convolutional Neural Networks (CNNs) haben gute Ergebnisse bei der Analyse von Schilddrüsenultraschallbildern erzielt. Aufgrund des begrenzten gültigen rezeptiven Feldes der Faltungsschichten können CNNs jedoch keine weiträumigen kontextuellen Abhängigkeiten erfassen, die für die Identifizierung von Schilddrüsenknoten in Ultraschallbildern wichtig sind. Transformatornetzwerke sind effektiv bei der Erfassung von Kontextinformationen über große Reichweiten. Davon inspiriert, schlagen wir eine neuartige Methode zur Erkennung von Schilddrüsenknoten vor, die das Swin-Transformer-Backbone und Faster R-CNN kombiniert. Konkret wird zunächst ein Ultraschallbild in eine 1D-Sequenz von Einbettungen projiziert, die dann in einen hierarchischen Swin Transformer eingespeist werden.

Das Swin Transformer-Backbone extrahiert Merkmale in fünf verschiedenen Skalen, indem es verschobene Fenster für die Berechnung der Selbstaufmerksamkeit verwendet. Anschließend wird ein Feature-Pyramiden-Netzwerk (FPN) verwendet, um die Features aus verschiedenen Maßstäben zu fusionieren. Schließlich wird ein Erkennungskopf verwendet, um Begrenzungsrahmen und die entsprechenden Konfidenzwerte vorherzusagen. Für die Durchführung der Experimente wurden Daten von 2.680 Patienten verwendet, und die Ergebnisse zeigten, dass diese Methode den besten mAP-Score von 44,8 % erzielte und damit die CNN-basierten Baselines übertraf. Darüber hinaus haben wir eine bessere Empfindlichkeit (90,5 %) als die Wettbewerber erreicht. Dies deutet darauf hin, dass die Kontextmodellierung in diesem Modell für die Erkennung von Schilddrüsenknoten effektiv ist.

Introduction

Die Inzidenz von Schilddrüsenkrebs hat seit 1970 rapide zugenommen, insbesondere bei Frauen mittleren Alters1. Schilddrüsenknoten können die Entstehung von Schilddrüsenkrebs vorhersagen, und die meisten Schilddrüsenknoten sind asymptomatisch2. Die Früherkennung von Schilddrüsenknoten ist sehr hilfreich bei der Heilung von Schilddrüsenkrebs. Daher sollten sich nach den aktuellen Praxisleitlinien alle Patienten mit Verdacht auf knotigen Kropf bei der körperlichen Untersuchung oder mit auffälligen Bildgebungsbefunden einer weiteren Untersuchung unterziehen 3,4.

Der Schilddrüsenultraschall (US) ist eine gängige Methode zur Erkennung und Charakterisierung von Schilddrüsenläsionen 5,6. US ist eine bequeme, kostengünstige und strahlungsfreie Technologie. Die Anwendung von US wird jedoch leicht durch den Operatorbeeinflusst 7,8. Merkmale wie Form, Größe, Echogenität und Textur von Schilddrüsenknoten sind auf US-Bildern leicht zu unterscheiden. Obwohl bestimmte US-Merkmale – Verkalkungen, Echogenität und unregelmäßige Grenzen – oft als Kriterien für die Identifizierung von Schilddrüsenknoten angesehen werden, ist das Vorhandensein von Interobserver-Variabilität unvermeidlich 8,9. Die Diagnoseergebnisse von Radiologen mit unterschiedlichem Erfahrungsstand sind unterschiedlich. Unerfahrene Radiologen stellen häufiger Fehldiagnosen als erfahrene Radiologen. Einige Merkmale von US wie Reflexionen, Schatten und Echos können die Bildqualität beeinträchtigen. Diese Verschlechterung der Bildqualität, die durch die Art der US-Bildgebung verursacht wird, macht es selbst erfahrenen Ärzten schwer, Knötchen genau zu lokalisieren.

Die computergestützte Diagnose (CAD) von Schilddrüsenknoten hat sich in den letzten Jahren rasant weiterentwickelt und kann Fehler, die von verschiedenen Ärzten verursacht werden, effektiv reduzieren und Radiologen helfen, Knoten schnell und genau zu diagnostizieren10,11. Für die Analyse von US-Knoten in der Schilddrüse wurden verschiedene CNN-basierte CAD-Systeme vorgeschlagen, darunter Segmentierung 12,13, Detektion 14,15 und Klassifizierung 16,17. CNN ist ein mehrschichtiges, überwachtes Lernmodell18, und die Kernmodule von CNN sind die Faltungs- und Pooling-Schichten. Die Faltungs-Layer werden für die Feature-Extraktion verwendet, und die Pooling-Layer werden für das Downsampling verwendet. Die Faltungsebenen für Schatten können primäre Merkmale wie Textur, Kanten und Konturen extrahieren, während tiefe Faltungsebenen semantische Merkmale auf hoher Ebene erlernen.

CNNs haben große Erfolge im Bereich Computer Vision 19,20,21 erzielt. CNNs sind jedoch nicht in der Lage, weitreichende kontextuelle Abhängigkeiten zu erfassen, da das Feld der Faltungsschichten begrenzt ist. In der Vergangenheit verwendeten Backbone-Architekturen für die Bildklassifizierung meist CNNs. Mit dem Aufkommen von Vision Transformer (ViT)22,23 hat sich dieser Trend geändert, und jetzt verwenden viele moderne Modelle Transformatoren als Backbone. Basierend auf nicht überlappenden Bildfeldern verwendet ViT einen Standard-Transformator-Encoder25, um räumliche Beziehungen global zu modellieren. Der Swin Transformer24 führt außerdem Shift-Fenster ein, um Funktionen zu erlernen. Die Verschiebungsfenster bringen nicht nur eine höhere Effizienz, sondern reduzieren auch die Länge der Sequenz erheblich, da die Selbstaufmerksamkeit im Fenster berechnet wird. Gleichzeitig kann die Interaktion zwischen zwei benachbarten Fenstern durch den Vorgang des Verschiebens (Bewegens) erfolgen. Die erfolgreiche Anwendung des Swin-Transformators in der Computer Vision hat zur Untersuchung von transformatorbasierten Architekturen für die Ultraschallbildanalyse geführt26.

Kürzlich schlugen Li et al. einen Deep-Learning-Ansatz28 für die Erkennung von papillärem Schilddrüsenkrebs vor, der von Faster R-CNN27 inspiriert ist. Faster R-CNN ist eine klassische CNN-basierte Objekterkennungsarchitektur. Das ursprüngliche Faster R-CNN besteht aus vier Modulen: dem CNN-Backbone, dem Region Proposal Network (RPN), der ROI-Pooling-Schicht und dem Detektionskopf. Der CNN-Backbone verwendet eine Reihe grundlegender conv+bn+relu+pooling-Layer, um Feature-Maps aus dem Eingabebild zu extrahieren. Anschließend werden die Feature-Karten in den RPN- und den ROI-Pooling-Layer eingespeist. Die Aufgabe des RPN-Netzwerks besteht darin, regionale Vorschläge zu erstellen. Dieses Modul verwendet softmax, um zu bestimmen, ob Anker positiv sind, und generiert genaue Anker durch Regression des Begrenzungsrahmens. Der ROI-Pooling-Layer extrahiert die Vorschlags-Feature-Maps, indem er die Eingabe-Feature-Maps und -Vorschläge sammelt und die Proposal-Feature-Maps in den nachfolgenden Erkennungskopf einspeist. Der Erkennungskopf verwendet die Vorschlags-Feature-Karten, um Objekte zu klassifizieren und genaue Positionen der Erkennungsfelder durch Begrenzungsrahmenregression zu erhalten.

In diesem Artikel wird ein neues Netzwerk zur Erkennung von Schilddrüsenknoten namens Swin Faster R-CNN vorgestellt, das durch den Ersatz des CNN-Backbones in Faster R-CNN durch den Swin-Transformator gebildet wird, was zu einer besseren Extraktion von Merkmalen für die Erkennung von Knoten aus Ultraschallbildern führt. Darüber hinaus wird das Merkmalspyramidennetzwerk (FPN)29 verwendet, um die Detektionsleistung des Modells für Knoten unterschiedlicher Größe durch die Aggregation von Merkmalen unterschiedlicher Maßstäbe zu verbessern.

Protocol

Diese retrospektive Studie wurde vom institutionellen Prüfungsausschuss des West China Hospital, Sichuan University, Sichuan, China, genehmigt und auf das Erfordernis der Einholung einer informierten Einwilligung verzichtet. 1. Einrichten der Umgebung GPU-Software (Graphic Processing Unit)Um Deep-Learning-Anwendungen zu implementieren, konfigurieren Sie zunächst die GPU-bezogene Umgebung. Laden Sie GPU-geeignete Software und Treiber von der GPU-Website heru…

Representative Results

Die US-Bilder der Schilddrüse wurden von September 2008 bis Februar 2018 in zwei Krankenhäusern in China aufgenommen. Die Zulassungskriterien für die Aufnahme der US-Bilder in diese Studie waren die konventionelle US-Untersuchung vor der Biopsie und der chirurgischen Behandlung, die Diagnose mit Biopsie oder postoperativer Pathologie sowie das Alter ≥ 18 Jahren. Ausschlusskriterium waren Bilder ohne Schilddrüsengewebe. Die 3.000 Ultraschallbilder umfassten 1.384 bösartige und 1.616 guta…

Discussion

In diesem Whitepaper wird ausführlich beschrieben, wie die Umgebung, die Datenvorbereitung, die Modellkonfiguration und das Netzwerktraining durchgeführt werden. In der Einrichtungsphase der Umgebung muss darauf geachtet werden, dass die abhängigen Bibliotheken kompatibel und übereinstimmend sind. Die Datenverarbeitung ist ein sehr wichtiger Schritt. Es muss Zeit und Mühe aufgewendet werden, um die Richtigkeit der Anmerkungen zu gewährleisten. Beim Trainieren des Modells kann ein “ModuleNotFoundError” auftreten. In…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Diese Studie wurde von der National Natural Science Foundation of China (Grant No.32101188) und dem General Project of Science and Technology Department der Provinz Sichuan (Grant No. 2021YFS0102), China, unterstützt.

Materials

GPU RTX3090 Nvidia 1 24G GPU
mmdetection2.11.0 SenseTime 4 https://github.com/open-mmlab/mmdetection.git
python3.8 2 https://www.python.org
pytorch1.7.1 Facebook 3 https://pytorch.org

References

  1. Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
  2. Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
  3. Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
  4. Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
  5. Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
  6. Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
  7. Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
  8. Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
  9. Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
  10. Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
  11. Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
  12. Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
  13. Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
  14. Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
  15. Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
  16. Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
  17. Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
  18. Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
  19. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
  20. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
  21. Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
  22. Dosovitskiy, A., et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
  23. Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
  24. Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
  25. Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
  26. Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
  27. Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
  28. Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
  29. Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
  30. Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
  31. Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
  32. Castleman, K. R. . Digital Image Processing. , (1996).
  33. Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
  34. Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
  35. Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
  36. Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).
check_url/kr/64480?article_type=t&slug=a-swin-transformer-based-model-for-thyroid-nodule-detection

Play Video

Cite This Article
Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

View Video