Her foreslås en ny modell for skjoldbruskknutedeteksjon i ultralydbilder, som bruker Swin Transformer som ryggrad for å utføre langdistansekontekstmodellering. Eksperimenter viser at det fungerer bra når det gjelder følsomhet og nøyaktighet.
De siste årene har forekomsten av kreft i skjoldbruskkjertelen vært økende. Deteksjon av skjoldbruskknuter er avgjørende for både påvisning og behandling av skjoldbruskkjertelkreft. Convolutional nevrale nettverk (CNN) har oppnådd gode resultater i skjoldbrusk ultralyd bildeanalyseoppgaver. På grunn av det begrensede gyldige mottakelige feltet av konvolusjonslag, klarer CNN-er imidlertid ikke å fange langdistansekontekstuelle avhengigheter, noe som er viktig for å identifisere skjoldbruskknuter i ultralydbilder. Transformatornettverk er effektive for å fange opp kontekstuell informasjon med lang rekkevidde. Inspirert av dette foreslår vi en ny skjoldbruskknutedeteksjonsmetode som kombinerer Swin Transformer-ryggraden og raskere R-CNN. Spesielt blir et ultralydbilde først projisert i en 1D-sekvens av innebygginger, som deretter mates inn i en hierarkisk Swin Transformer.
Den Swin Transformer ryggraden ekstrakter funksjoner på fem forskjellige skalaer ved å benytte forskjøvet vinduer for beregning av egenoppmerksomhet. Deretter brukes et funksjonspyramidenettverk (FPN) til å smelte sammen funksjonene fra forskjellige skalaer. Til slutt brukes et deteksjonshode til å forutsi markeringsrammer og tilsvarende konfidenspoengsum. Data samlet inn fra 2.680 pasienter ble brukt til å gjennomføre forsøkene, og resultatene viste at denne metoden oppnådde den beste mAP-poengsummen på 44.8%, bedre enn CNN-baserte grunnlinjer. I tillegg fikk vi bedre følsomhet (90,5%) enn konkurrentene. Dette indikerer at kontekstmodellering i denne modellen er effektiv for deteksjon av skjoldbruskknuter.
Forekomsten av kreft i skjoldbruskkjertelen har økt raskt siden 1970, særlig blant middelaldrende kvinner1. Knuter i skjoldbruskkjertelen kan forutsi fremveksten av kreft i skjoldbruskkjertelen, og de fleste knuter i skjoldbruskkjertelen er asymptomatiske2. Den tidlige påvisning av skjoldbrusk knuter er svært nyttig i herding skjoldbruskkjertelkreft. I henhold til gjeldende retningslinjer bør derfor alle pasienter med mistanke om knutestruma ved fysisk undersøkelse eller med unormale bildefunn undersøkes videre 3,4.
Thyroid ultralyd (US) er en vanlig metode som brukes til å oppdage og karakterisere skjoldbrusk lesjoner 5,6. USA er en praktisk, billig og strålingsfri teknologi. Imidlertid påvirkes applikasjonen av USA lett av operatøren 7,8. Funksjoner som form, størrelse, ekkogenitet og tekstur av skjoldbruskknuter er lett å skille på amerikanske bilder. Selv om visse amerikanske trekk – forkalkninger, ekkogenitet og uregelmessige grenser – ofte betraktes som kriterier for å identifisere knuter i skjoldbruskkjertelen, er tilstedeværelsen av interobservatørvariabilitet uunngåelig 8,9. Diagnoseresultatene til radiologer med ulik erfaringsnivå er forskjellig. Uerfarne radiologer er mer sannsynlig å feildiagnostisere enn erfarne radiologer. Noen egenskaper ved USA, for eksempel refleksjoner, skygger og ekko, kan forringe bildekvaliteten. Denne forringelsen i bildekvalitet forårsaket av naturen til amerikansk bildebehandling gjør det vanskelig for selv erfarne leger å lokalisere knuter nøyaktig.
Dataassistert diagnose (CAD) for skjoldbruskknuter har utviklet seg raskt de siste årene og kan effektivt redusere feil forårsaket av forskjellige leger og hjelpe radiologer med å diagnostisere knuter raskt og nøyaktig10,11. Ulike CNN-baserte CAD-systemer har blitt foreslått for skjoldbrusk amerikansk knuteanalyse, inkludert segmentering 12,13, deteksjon 14,15 og klassifisering 16,17. CNN er en flerlags, veiledet læringsmodell18, og kjernemodulene til CNN er konvolusjons- og poolinglagene. Konvolusjonslagene brukes til funksjonsutvinning, og sammenslutningslagene brukes til reduksjon av oppløsning. Skyggekonvolusjonslagene kan trekke ut primære funksjoner som tekstur, kanter og konturer, mens dype konvolusjonslag lærer semantiske funksjoner på høyt nivå.
CNN har hatt stor suksess i datasyn 19,20,21. CNN-er klarer imidlertid ikke å fange opp kontekstuelle avhengigheter med lang rekkevidde på grunn av det begrensede gyldige mottakelige feltet i de konvolusjonelle lagene. Tidligere brukte ryggradsarkitekturer for bildeklassifisering mest CNN-er. Med ankomsten av Vision Transformer (ViT) 22,23 har denne trenden endret seg, og nå bruker mange toppmoderne modeller transformatorer som ryggrad. Basert på ikke-overlappende bildeoppdateringer bruker ViT en standard transformatorkoder25 for å modellere romlige forhold globalt. Den Swin Transformer24 videre introduserer skift vinduer for å lære funksjoner. Skiftvinduene gir ikke bare større effektivitet, men reduserer også lengden på sekvensen sterkt fordi selvoppmerksomhet beregnes i vinduet. Samtidig kan samspillet mellom to tilstøtende vinduer gjøres gjennom drift av skifting (bevegelse). Den vellykkede anvendelsen av Swin Transformer i datasyn har ført til undersøkelse av transformatorbaserte arkitekturer for ultralydbildeanalyse26.
Nylig foreslo Li et al. en dyp læringsmetode28 for deteksjon av skjoldbrusk papillær kreft inspirert av Faster R-CNN27. Raskere R-CNN er en klassisk CNN-basert objektdeteksjonsarkitektur. Den opprinnelige Faster R-CNN har fire moduler – CNN-ryggraden, regionforslagsnettverket (RPN), ROI-poolinglaget og deteksjonshodet. CNN-ryggraden bruker et sett med grunnleggende conv + bn + relu + pooling-lag for å trekke ut funksjonskart fra inndatabildet. Deretter mates funksjonskartene inn i RPN- og avkastningssammenslutningslaget. RPN-nettverkets rolle er å generere regionforslag. Denne modulen bruker softmax til å avgjøre om ankre er positive og genererer nøyaktige ankre ved markeringsboksregresjon. ROI-sammenslutningslaget trekker ut forslagsfunksjonskartene ved å samle inn funksjonskart og forslag, og mater forslagsfunksjonskartene inn i det påfølgende gjenkjenningshodet. Deteksjonshodet bruker forslagsfunksjonskartene til å klassifisere objekter og få nøyaktige posisjoner for deteksjonsboksene ved å markere regresjon.
Dette papiret presenterer et nytt skjoldbrusk knutedeteksjonsnettverk kalt Swin Faster R-CNN dannet ved å erstatte CNN-ryggraden i Faster R-CNN med Swin Transformer, noe som resulterer i bedre utvinning av funksjoner for knutedeteksjon fra ultralydbilder. I tillegg brukes funksjonspyramidenettverket (FPN)29 til å forbedre deteksjonsytelsen til modellen for knuter av forskjellige størrelser ved å aggregere funksjoner i forskjellige skalaer.
Dette dokumentet beskriver i detalj hvordan du utfører miljøoppsett, klargjøring av data, modellkonfigurasjon og nettverksopplæring. I miljøoppsettfasen må man være oppmerksom på at de avhengige bibliotekene er kompatible og matchet. Databehandling er et veldig viktig skritt; Tid og krefter må brukes for å sikre nøyaktigheten av merknadene. Når du trener modellen, kan det oppstå en “ModuleNotFoundError”. I dette tilfellet er det nødvendig å bruke kommandoen “pip install” for å installere det manglende bib…
The authors have nothing to disclose.
Denne studien ble støttet av National Natural Science Foundation of China (Grant No.32101188) og General Project of Science and Technology Department of Sichuan Province (Grant No. 2021YFS0102), Kina.
GPU RTX3090 | Nvidia | 1 | 24G GPU |
mmdetection2.11.0 | SenseTime | 4 | https://github.com/open-mmlab/mmdetection.git |
python3.8 | — | 2 | https://www.python.org |
pytorch1.7.1 | 3 | https://pytorch.org |