A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images

Ye Tian; Jingqiang Zhu; Lei Zhang; Lichao Mou; Xiaoxiang Zhu; Yilei Shi; Buyun Ma; Wanjun Zhao

doi:10.3791/64480

JoVE Journal > Medicine

Medicina

En Swin Transformer-basert modell for skjoldbrusk knutedeteksjon i ultralydbilder

Published: April 21, 2023

doi:

10.3791/64480

Ye Tian, Jingqiang Zhu, Lei Zhang, Lichao Mou, Xiaoxiang Zhu, Yilei Shi, Buyun Ma, Wanjun Zhao

¹Department of Ultrasonography,West China Hospital of Sichuan University, ²Department of Thyroid Surgery,West China Hospital of Sichuan University, ³MedAI Technology (Wuxi) Co. Ltd.

Summary

Her foreslås en ny modell for skjoldbruskknutedeteksjon i ultralydbilder, som bruker Swin Transformer som ryggrad for å utføre langdistansekontekstmodellering. Eksperimenter viser at det fungerer bra når det gjelder følsomhet og nøyaktighet.

Abstract

De siste årene har forekomsten av kreft i skjoldbruskkjertelen vært økende. Deteksjon av skjoldbruskknuter er avgjørende for både påvisning og behandling av skjoldbruskkjertelkreft. Convolutional nevrale nettverk (CNN) har oppnådd gode resultater i skjoldbrusk ultralyd bildeanalyseoppgaver. På grunn av det begrensede gyldige mottakelige feltet av konvolusjonslag, klarer CNN-er imidlertid ikke å fange langdistansekontekstuelle avhengigheter, noe som er viktig for å identifisere skjoldbruskknuter i ultralydbilder. Transformatornettverk er effektive for å fange opp kontekstuell informasjon med lang rekkevidde. Inspirert av dette foreslår vi en ny skjoldbruskknutedeteksjonsmetode som kombinerer Swin Transformer-ryggraden og raskere R-CNN. Spesielt blir et ultralydbilde først projisert i en 1D-sekvens av innebygginger, som deretter mates inn i en hierarkisk Swin Transformer.

Den Swin Transformer ryggraden ekstrakter funksjoner på fem forskjellige skalaer ved å benytte forskjøvet vinduer for beregning av egenoppmerksomhet. Deretter brukes et funksjonspyramidenettverk (FPN) til å smelte sammen funksjonene fra forskjellige skalaer. Til slutt brukes et deteksjonshode til å forutsi markeringsrammer og tilsvarende konfidenspoengsum. Data samlet inn fra 2.680 pasienter ble brukt til å gjennomføre forsøkene, og resultatene viste at denne metoden oppnådde den beste mAP-poengsummen på 44.8%, bedre enn CNN-baserte grunnlinjer. I tillegg fikk vi bedre følsomhet (90,5%) enn konkurrentene. Dette indikerer at kontekstmodellering i denne modellen er effektiv for deteksjon av skjoldbruskknuter.

Introduction

Forekomsten av kreft i skjoldbruskkjertelen har økt raskt siden 1970, særlig blant middelaldrende kvinner¹. Knuter i skjoldbruskkjertelen kan forutsi fremveksten av kreft i skjoldbruskkjertelen, og de fleste knuter i skjoldbruskkjertelen er asymptomatiske². Den tidlige påvisning av skjoldbrusk knuter er svært nyttig i herding skjoldbruskkjertelkreft. I henhold til gjeldende retningslinjer bør derfor alle pasienter med mistanke om knutestruma ved fysisk undersøkelse eller med unormale bildefunn undersøkes videre ^3,4.

Thyroid ultralyd (US) er en vanlig metode som brukes til å oppdage og karakterisere skjoldbrusk lesjoner ^5,6. USA er en praktisk, billig og strålingsfri teknologi. Imidlertid påvirkes applikasjonen av USA lett av operatøren ^7,8. Funksjoner som form, størrelse, ekkogenitet og tekstur av skjoldbruskknuter er lett å skille på amerikanske bilder. Selv om visse amerikanske trekk – forkalkninger, ekkogenitet og uregelmessige grenser – ofte betraktes som kriterier for å identifisere knuter i skjoldbruskkjertelen, er tilstedeværelsen av interobservatørvariabilitet uunngåelig ^8,9. Diagnoseresultatene til radiologer med ulik erfaringsnivå er forskjellig. Uerfarne radiologer er mer sannsynlig å feildiagnostisere enn erfarne radiologer. Noen egenskaper ved USA, for eksempel refleksjoner, skygger og ekko, kan forringe bildekvaliteten. Denne forringelsen i bildekvalitet forårsaket av naturen til amerikansk bildebehandling gjør det vanskelig for selv erfarne leger å lokalisere knuter nøyaktig.

Dataassistert diagnose (CAD) for skjoldbruskknuter har utviklet seg raskt de siste årene og kan effektivt redusere feil forårsaket av forskjellige leger og hjelpe radiologer med å diagnostisere knuter raskt og nøyaktig^10,11. Ulike CNN-baserte CAD-systemer har blitt foreslått for skjoldbrusk amerikansk knuteanalyse, inkludert segmentering 12,13, deteksjon 14,15 og klassifisering ^16,17. CNN er en flerlags, veiledet læringsmodell¹⁸, og kjernemodulene til CNN er konvolusjons- og poolinglagene. Konvolusjonslagene brukes til funksjonsutvinning, og sammenslutningslagene brukes til reduksjon av oppløsning. Skyggekonvolusjonslagene kan trekke ut primære funksjoner som tekstur, kanter og konturer, mens dype konvolusjonslag lærer semantiske funksjoner på høyt nivå.

CNN har hatt stor suksess i datasyn 19,20,21. CNN-er klarer imidlertid ikke å fange opp kontekstuelle avhengigheter med lang rekkevidde på grunn av det begrensede gyldige mottakelige feltet i de konvolusjonelle lagene. Tidligere brukte ryggradsarkitekturer for bildeklassifisering mest CNN-er. Med ankomsten av Vision Transformer (ViT) ^22,23 har denne trenden endret seg, og nå bruker mange toppmoderne modeller transformatorer som ryggrad. Basert på ikke-overlappende bildeoppdateringer bruker ViT en standard transformatorkoder²⁵ for å modellere romlige forhold globalt. Den Swin Transformer²⁴ videre introduserer skift vinduer for å lære funksjoner. Skiftvinduene gir ikke bare større effektivitet, men reduserer også lengden på sekvensen sterkt fordi selvoppmerksomhet beregnes i vinduet. Samtidig kan samspillet mellom to tilstøtende vinduer gjøres gjennom drift av skifting (bevegelse). Den vellykkede anvendelsen av Swin Transformer i datasyn har ført til undersøkelse av transformatorbaserte arkitekturer for ultralydbildeanalyse²⁶.

Nylig foreslo Li et al. en dyp læringsmetode²⁸ for deteksjon av skjoldbrusk papillær kreft inspirert av Faster R-CNN²⁷. Raskere R-CNN er en klassisk CNN-basert objektdeteksjonsarkitektur. Den opprinnelige Faster R-CNN har fire moduler – CNN-ryggraden, regionforslagsnettverket (RPN), ROI-poolinglaget og deteksjonshodet. CNN-ryggraden bruker et sett med grunnleggende conv + bn + relu + pooling-lag for å trekke ut funksjonskart fra inndatabildet. Deretter mates funksjonskartene inn i RPN- og avkastningssammenslutningslaget. RPN-nettverkets rolle er å generere regionforslag. Denne modulen bruker softmax til å avgjøre om ankre er positive og genererer nøyaktige ankre ved markeringsboksregresjon. ROI-sammenslutningslaget trekker ut forslagsfunksjonskartene ved å samle inn funksjonskart og forslag, og mater forslagsfunksjonskartene inn i det påfølgende gjenkjenningshodet. Deteksjonshodet bruker forslagsfunksjonskartene til å klassifisere objekter og få nøyaktige posisjoner for deteksjonsboksene ved å markere regresjon.

Dette papiret presenterer et nytt skjoldbrusk knutedeteksjonsnettverk kalt Swin Faster R-CNN dannet ved å erstatte CNN-ryggraden i Faster R-CNN med Swin Transformer, noe som resulterer i bedre utvinning av funksjoner for knutedeteksjon fra ultralydbilder. I tillegg brukes funksjonspyramidenettverket (FPN)²⁹ til å forbedre deteksjonsytelsen til modellen for knuter av forskjellige størrelser ved å aggregere funksjoner i forskjellige skalaer.

Protocol

Denne retrospektive studien ble godkjent av det institusjonelle gjennomgangsstyret ved West China Hospital, Sichuan University, Sichuan, Kina, og kravet om å innhente informert samtykke ble frafalt. 1. Miljø oppsett Programvare for grafikkbehandlingsenhet (GPU)For å implementere dyplæringsapplikasjoner, må du først konfigurere det GPU-relaterte miljøet. Last ned og installer GPU-passende programvare og drivere fra GPUs nettsted.MERK: Se mat…

Representative Results

De amerikanske skjoldbruskkjertelbildene ble samlet inn fra to sykehus i Kina fra september 2008 til februar 2018. Valgbarhetskriteriene for å inkludere de amerikanske bildene i denne studien var konvensjonell amerikansk undersøkelse før biopsi og kirurgisk behandling, diagnose med biopsi eller postkirurgisk patologi og alder ≥ 18 år. Eksklusjonskriteriene var bilder uten tyreoideavev. De 3.000 ultralydbildene inkluderte 1.384 ondartede og 1.616 godartede knuter. Flertallet (90 %) av de …

Discussion

Dette dokumentet beskriver i detalj hvordan du utfører miljøoppsett, klargjøring av data, modellkonfigurasjon og nettverksopplæring. I miljøoppsettfasen må man være oppmerksom på at de avhengige bibliotekene er kompatible og matchet. Databehandling er et veldig viktig skritt; Tid og krefter må brukes for å sikre nøyaktigheten av merknadene. Når du trener modellen, kan det oppstå en “ModuleNotFoundError”. I dette tilfellet er det nødvendig å bruke kommandoen “pip install” for å installere det manglende bib…

Divulgazioni

The authors have nothing to disclose.

Acknowledgements

Denne studien ble støttet av National Natural Science Foundation of China (Grant No.32101188) og General Project of Science and Technology Department of Sichuan Province (Grant No. 2021YFS0102), Kina.

Materials

GPU RTX3090	Nvidia	1	24G GPU
mmdetection2.11.0	SenseTime	4	https://github.com/open-mmlab/mmdetection.git
python3.8	—	2	https://www.python.org
pytorch1.7.1	Facebook	3	https://pytorch.org

Riferimenti

Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
Dosovitskiy, A., et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
Castleman, K. R. . Digital Image Processing. , (1996).
Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).

Play Video

PDF

DOI

DOWNLOAD MATERIALS LIST

Citazione di questo articolo

Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

En Swin Transformer-basert modell for skjoldbrusk knutedeteksjon i ultralydbilder

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

En Swin Transformer-basert modell for skjoldbrusk knutedeteksjon i ultralydbilder

Summary

Abstract

Introduction

Protocol

Representative Results

Discussion

Divulgazioni

Acknowledgements

Materials

Riferimenti

Tags

Play Video

Citazione di questo articolo

View Video

✖

To prove you're not a robot, please enter the text in the image below