Summary

Un modello basato su trasformatore swin per il rilevamento di noduli tiroidei nelle immagini ecografiche

Published: April 21, 2023
doi:

Summary

Qui viene proposto un nuovo modello per il rilevamento dei noduli tiroidei nelle immagini ecografiche, che utilizza Swin Transformer come spina dorsale per eseguire la modellazione del contesto a lungo raggio. Gli esperimenti dimostrano che funziona bene in termini di sensibilità e precisione.

Abstract

Negli ultimi anni, l’incidenza del cancro alla tiroide è in aumento. Il rilevamento dei noduli tiroidei è fondamentale sia per l’individuazione che per il trattamento del cancro della tiroide. Le reti neurali convoluzionali (CNN) hanno ottenuto buoni risultati nelle attività di analisi delle immagini ecografiche tiroidee. Tuttavia, a causa del limitato campo ricettivo valido degli strati convoluzionali, le CNN non riescono a catturare le dipendenze contestuali a lungo raggio, che sono importanti per identificare i noduli tiroidei nelle immagini ecografiche. Le reti di trasformatori sono efficaci nell’acquisizione di informazioni contestuali a lungo raggio. Ispirati da questo, proponiamo un nuovo metodo di rilevamento dei noduli tiroidei che combina la spina dorsale Swin Transformer e Faster R-CNN. In particolare, un’immagine ecografica viene prima proiettata in una sequenza 1D di incorporamenti, che vengono poi inseriti in un trasformatore Swin gerarchico.

La dorsale Swin Transformer estrae le caratteristiche su cinque diverse scale utilizzando finestre spostate per il calcolo dell’auto-attenzione. Successivamente, viene utilizzata una rete di piramide delle caratteristiche (FPN) per fondere le caratteristiche da scale diverse. Infine, una testina di rilevamento viene utilizzata per prevedere i riquadri di delimitazione e i punteggi di confidenza corrispondenti. I dati raccolti da 2.680 pazienti sono stati utilizzati per condurre gli esperimenti e i risultati hanno mostrato che questo metodo ha raggiunto il miglior punteggio mAP del 44,8%, superando le linee di base basate sulla CNN. Inoltre, abbiamo ottenuto una migliore sensibilità (90,5%) rispetto ai concorrenti. Ciò indica che la modellazione del contesto in questo modello è efficace per il rilevamento dei noduli tiroidei.

Introduction

L’incidenza del cancro alla tiroide è aumentata rapidamente dal 1970, soprattutto tra le donne di mezza età1. I noduli tiroidei possono predire l’emergere del cancro della tiroide e la maggior parte dei noduli tiroidei sono asintomatici2. La diagnosi precoce dei noduli tiroidei è molto utile nella cura del cancro alla tiroide. Pertanto, secondo le attuali linee guida pratiche, tutti i pazienti con sospetto gozzo nodulare all’esame obiettivo o con risultati di imaging anomali dovrebbero essere sottoposti a ulteriori esami 3,4.

L’ecografia tiroidea (US) è un metodo comune utilizzato per rilevare e caratterizzare le lesioni tiroidee 5,6. Gli Stati Uniti sono una tecnologia conveniente, economica e priva di radiazioni. Tuttavia, l’applicazione di US è facilmente influenzata dall’operatore 7,8. Caratteristiche come la forma, le dimensioni, l’ecogenicità e la consistenza dei noduli tiroidei sono facilmente distinguibili sulle immagini statunitensi. Sebbene alcune caratteristiche statunitensi – calcificazioni, ecogenicità e bordi irregolari – siano spesso considerate criteri per identificare i noduli tiroidei, la presenza di variabilità interosservatore è inevitabile 8,9. I risultati diagnostici dei radiologi con diversi livelli di esperienza sono diversi. I radiologi inesperti hanno maggiori probabilità di diagnosticare erroneamente rispetto ai radiologi esperti. Alcune caratteristiche di US come riflessi, ombre ed echi possono degradare la qualità dell’immagine. Questo degrado della qualità dell’immagine causato dalla natura dell’imaging statunitense rende difficile anche per i medici esperti individuare i noduli con precisione.

La diagnosi computerizzata (CAD) per i noduli tiroidei si è sviluppata rapidamente negli ultimi anni e può ridurre efficacemente gli errori causati da diversi medici e aiutare i radiologi a diagnosticare i noduli in modo rapido e preciso10,11. Sono stati proposti vari sistemi CAD basati su CNN per l’analisi dei noduli tiroidei statunitensi, tra cui la segmentazione 12,13, il rilevamento 14,15 e la classificazione 16,17. CNN è un modello di apprendimento supervisionato multilivello18 e i moduli principali della CNN sono i livelli di convoluzione e pooling. I layer di convoluzione vengono utilizzati per l’estrazione delle feature, mentre i layer di pooling vengono utilizzati per il downsampling. I livelli convoluzionali ombra possono estrarre feature primarie come la texture, i bordi e i contorni, mentre i livelli convoluzionali profondi apprendono feature semantiche di alto livello.

Le CNN hanno avuto un grande successo nella visione artificiale 19,20,21. Tuttavia, le CNN non riescono a catturare le dipendenze contestuali a lungo raggio a causa del limitato campo ricettivo valido degli strati convoluzionali. In passato, le architetture backbone per la classificazione delle immagini utilizzavano principalmente le CNN. Con l’avvento di Vision Transformer (ViT)22,23, questa tendenza è cambiata e ora molti modelli all’avanguardia utilizzano trasformatori come spine dorsali. Basato su patch di immagini non sovrapposte, ViT utilizza un encoder di trasformatori standard25 per modellare globalmente le relazioni spaziali. Lo Swin Transformer24 introduce inoltre le finestre di spostamento per apprendere le funzionalità. Le finestre di spostamento non solo portano una maggiore efficienza, ma riducono anche notevolmente la lunghezza della sequenza perché l’auto-attenzione viene calcolata nella finestra. Allo stesso tempo, l’interazione tra due finestre adiacenti può essere effettuata attraverso l’operazione di spostamento (movimento). L’applicazione di successo del trasformatore Swin nella visione artificiale ha portato allo studio di architetture basate su trasformatori per l’analisi delle immagini a ultrasuoni26.

Recentemente, Li et al. hanno proposto un approccio di deep learning28 per il rilevamento del cancro papillare tiroideo ispirato da Faster R-CNN27. Faster R-CNN è una classica architettura di rilevamento di oggetti basata su CNN. L’originale Faster R-CNN ha quattro moduli: la dorsale CNN, la rete di proposta regionale (RPN), il livello di pooling ROI e la testa di rilevamento. La dorsale CNN utilizza un set di layer di base conv+bn+relu+pooling per estrarre le feature map dall’immagine di input. Quindi, le mappe delle feature vengono inserite nell’RPN e nel livello di pooling ROI. Il ruolo della rete RPN è quello di generare proposte regionali. Questo modulo utilizza softmax per determinare se gli ancoraggi sono positivi e genera ancoraggi accurati mediante la regressione del riquadro di delimitazione. Il layer di pooling ROI estrae le feature map delle proposte raccogliendo le feature map e le proposte di input e alimenta le feature map della proposta nella successiva testa di rilevamento. La testina di rilevamento utilizza le feature map della proposta per classificare gli oggetti e ottenere posizioni accurate delle caselle di rilevamento mediante la regressione del riquadro di delimitazione.

Questo documento presenta una nuova rete di rilevamento dei noduli tiroidei chiamata Swin Faster R-CNN formata sostituendo la dorsale CNN in Faster R-CNN con il trasformatore Swin, che si traduce in una migliore estrazione delle caratteristiche per il rilevamento dei noduli dalle immagini ecografiche. Inoltre, la rete FPN (Feature Pyramid Network)29 viene utilizzata per migliorare le prestazioni di rilevamento del modello per noduli di diverse dimensioni aggregando feature di scale diverse.

Protocol

Questo studio retrospettivo è stato approvato dal comitato di revisione istituzionale del West China Hospital, Sichuan University, Sichuan, Cina, e l’obbligo di ottenere il consenso informato è stato rinunciato. 1. Configurazione dell’ambiente Software dell’unità di elaborazione grafica (GPU)Per implementare applicazioni di deep learning, configura innanzitutto l’ambiente correlato alla GPU. Scarica e installa software e driver appropriati per la GPU dal s…

Representative Results

Le immagini della tiroide US sono state raccolte da due ospedali in Cina da settembre 2008 a febbraio 2018. I criteri di ammissibilità per includere le immagini statunitensi in questo studio erano l’esame convenzionale degli Stati Uniti prima della biopsia e del trattamento chirurgico, la diagnosi con biopsia o patologia post-chirurgica e l’età ≥ 18 anni. I criteri di esclusione erano immagini senza tessuti tiroidei. Le 3.000 immagini ecografiche includevano 1.384 noduli maligni e 1.616 be…

Discussion

In questo documento viene descritto in dettaglio come eseguire l’impostazione dell’ambiente, la preparazione dei dati, la configurazione del modello e l’addestramento della rete. Nella fase di configurazione dell’ambiente, è necessario prestare attenzione per garantire che le librerie dipendenti siano compatibili e corrispondenti. Il trattamento dei dati è un passo molto importante; Tempo e sforzi devono essere spesi per garantire l’accuratezza delle annotazioni. Durante il training del modello, è possibile che venga …

Disclosures

The authors have nothing to disclose.

Acknowledgements

Questo studio è stato sostenuto dalla National Natural Science Foundation of China (Grant No.32101188) e dal General Project of Science and Technology Department of Sichuan Province (Grant No. 2021YFS0102), Cina.

Materials

GPU RTX3090 Nvidia 1 24G GPU
mmdetection2.11.0 SenseTime 4 https://github.com/open-mmlab/mmdetection.git
python3.8 2 https://www.python.org
pytorch1.7.1 Facebook 3 https://pytorch.org

References

  1. Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
  2. Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
  3. Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
  4. Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
  5. Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
  6. Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
  7. Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
  8. Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
  9. Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
  10. Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
  11. Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
  12. Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
  13. Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
  14. Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
  15. Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
  16. Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
  17. Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
  18. Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
  19. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
  20. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
  21. Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
  22. Dosovitskiy, A., et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
  23. Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
  24. Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
  25. Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
  26. Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
  27. Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
  28. Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
  29. Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
  30. Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
  31. Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
  32. Castleman, K. R. . Digital Image Processing. , (1996).
  33. Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
  34. Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
  35. Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
  36. Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).
check_url/kr/64480?article_type=t

Play Video

Cite This Article
Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

View Video