Summary

Modelo baseado em transformador Swin para detecção de nódulos tireoidianos em imagens de ultrassom

Published: April 21, 2023
doi:

Summary

Aqui, um novo modelo para detecção de nódulos tireoidianos em imagens de ultrassom é proposto, que usa o transformador Swin como espinha dorsal para realizar modelagem de contexto de longo alcance. Experimentos provam que ele tem um bom desempenho em termos de sensibilidade e precisão.

Abstract

Nos últimos anos, a incidência do câncer de tireoide vem aumentando. A detecção de nódulos tireoidianos é fundamental tanto para a detecção quanto para o tratamento do câncer de tireoide. Redes neurais convolucionais (CNNs) têm alcançado bons resultados em tarefas de análise de imagens de ultrassom da tireoide. No entanto, devido ao limitado campo receptivo válido das camadas convolucionais, as CNNs não conseguem capturar dependências contextuais de longo alcance, que são importantes para identificar nódulos tireoidianos em imagens de ultrassonografia. As redes de transformadores são eficazes na captura de informações contextuais de longo alcance. Inspirados por isso, propomos um novo método de detecção de nódulos tireoidianos que combina o backbone Swin Transformer e o R-CNN mais rápido. Especificamente, uma imagem de ultrassom é primeiramente projetada em uma sequência 1D de incorporações, que são então alimentadas em um transformador Swin hierárquico.

O backbone Swin Transformer extrai recursos em cinco escalas diferentes, utilizando janelas deslocadas para o cálculo da autoatenção. Posteriormente, uma rede de pirâmide de recursos (FPN) é usada para fundir os recursos de diferentes escalas. Finalmente, uma cabeça de detecção é usada para prever caixas delimitadoras e os escores de confiança correspondentes. Dados coletados de 2.680 pacientes foram usados para conduzir os experimentos, e os resultados mostraram que esse método alcançou o melhor escore de mAP de 44,8%, superando as linhas de base baseadas na CNN. Além disso, ganhamos melhor sensibilidade (90,5%) que os concorrentes. Isso indica que a modelagem de contexto nesse modelo é eficaz para a detecção de nódulos tireoidianos.

Introduction

A incidência do câncer de tireoide tem aumentado rapidamente desde 1970, especialmente entre mulheres de meia-idade1. Nódulos tireoidianos podem predizer o surgimento de câncer de tireoide, e a maioria dos nódulos tireoidianos é assintomática2. A detecção precoce de nódulos tireoidianos é muito útil na cura do câncer de tireoide. Portanto, de acordo com as diretrizes atuais de prática, todos os pacientes com suspeita de bócio nodular ao exame físico ou com achados de imagem anormais devem ser submetidos a exames complementares 3,4.

A ultrassonografia (US) tireoidiana é um método comumente utilizado para detectar e caracterizar lesões tireoidianas5,6. Os EUA são uma tecnologia conveniente, barata e livre de radiação. Entretanto, a aplicação da US é facilmente afetada pelo operador 7,8. Características como forma, tamanho, ecogenicidade e textura dos nódulos tireoidianos são facilmente distinguíveis nas imagens ultrassonográficas. Embora certas características ultrassonográficas – calcificações, ecogenicidade e bordas irregulares – sejam frequentemente consideradas critérios para identificação de nódulos tireoidianos, a presença de variabilidade interobservador éinevitável8,9. Os resultados diagnósticos de radiologistas com diferentes níveis de experiência são diferentes. Radiologistas inexperientes são mais propensos a diagnosticar erroneamente do que radiologistas experientes. Algumas características do US como reflexos, sombras e ecos podem degradar a qualidade da imagem. Essa degradação na qualidade da imagem causada pela natureza da US dificulta a localização precisa dos nódulos, mesmo por médicos experientes.

O diagnóstico auxiliado por computador (DAC) para nódulos tireoidianos desenvolveu-se rapidamente nos últimos anos e pode efetivamente reduzir os erros causados por diferentes médicos e ajudar os radiologistas a diagnosticar nódulos de forma rápida e precisa10,11. Vários sistemas CAD baseados em CNN têm sido propostos para análise de nódulos na US tireoidiana, incluindo segmentação12,13, detecção14,15 eclassificação16,17. A CNN é um modelo de aprendizagem supervisionadomulticamadas 18, e os módulos principais da CNN são as camadas de convolução e pooling. As camadas de convolução são usadas para extração de feição, e as camadas de agrupamento são usadas para downsampling. As camadas convolucionais de sombra podem extrair características primárias, como textura, bordas e contornos, enquanto as camadas convolucionais profundas aprendem características semânticas de alto nível.

As CNNs têm tido grande sucesso em visão computacional 19,20,21. No entanto, as CNNs não conseguem capturar dependências contextuais de longo alcance devido ao limitado campo receptivo válido das camadas convolucionais. No passado, as arquiteturas de backbone para classificação de imagens usavam principalmente CNNs. Com o advento do Vision Transformer (ViT)22,23, essa tendência mudou, e agora muitos modelos de última geração utilizam transformadores como backbone. Com base em patches de imagem não sobrepostos, o ViT usa um codificador de transformadorpadrão 25 para modelar globalmente as relações espaciais. O Swin Transformer24 introduz ainda janelas de mudança para aprender recursos. As janelas de mudança não só trazem maior eficiência, mas também reduzem muito o comprimento da sequência, porque a autoatenção é calculada na janela. Ao mesmo tempo, a interação entre duas janelas adjacentes pode ser feita através da operação de deslocamento (movimento). A aplicação bem sucedida do transformador Swin em visão computacional levou à investigação de arquiteturas baseadas em transformadores para análise de imagens deultrassom26.

Recentemente, Li e col. propuseram uma abordagem de aprendizado profundo28 para detecção de câncer papilar de tireoide inspirada no Faster R-CNN27. O R-CNN mais rápido é uma arquitetura clássica de detecção de objetos baseada na CNN. O Faster R-CNN original tem quatro módulos: o backbone CNN, a rede de proposta de região (RPN), a camada de pool de ROI e o cabeçote de detecção. O backbone da CNN usa um conjunto de camadas básicas conv+bn+relu+pooling para extrair mapas de feição da imagem de entrada. Em seguida, os mapas de feição são alimentados na camada de pool de RPN e ROI. O papel da rede RPN é gerar propostas regionais. Este módulo usa softmax para determinar se as âncoras são positivas e gera âncoras precisas por regressão de caixa delimitadora. A camada de pool de ROI extrai os mapas de feição da proposta coletando os mapas de feição de entrada e as propostas e alimenta os mapas de feição da proposta no cabeçalho de detecção subsequente. A cabeça de detecção usa os mapas de recursos propostos para classificar objetos e obter posições precisas das caixas de detecção por regressão de caixa delimitadora.

Este trabalho apresenta uma nova rede de detecção de nódulos tireoidianos denominada Swin Faster R-CNN formada pela substituição do backbone CNN em Faster R-CNN pelo Swin Transformer, que resulta na melhor extração de recursos para detecção de nódulos a partir de imagens de ultrassom. Além disso, a rede de pirâmide característica (FPN)29 é utilizada para melhorar o desempenho de detecção do modelo para nódulos de diferentes tamanhos, agregando características de diferentes escalas.

Protocol

Este estudo retrospectivo foi aprovado pelo comitê de revisão institucional do West China Hospital, Sichuan University, Sichuan, China, e a exigência de obtenção de consentimento informado foi dispensada. 1. Configuração do ambiente Software de unidade de processamento gráfico (GPU)Para implementar aplicativos de aprendizado profundo, primeiro configure o ambiente relacionado à GPU. Baixe e instale softwares e drivers apropriados à GPU no site da GP…

Representative Results

As imagens da tireoide foram coletadas de dois hospitais na China de setembro de 2008 a fevereiro de 2018. Os critérios de elegibilidade para inclusão das imagens ultrassonográficas neste estudo foram exame ultrassonográfico convencional antes da biópsia e tratamento cirúrgico, diagnóstico com biópsia ou patologia pós-cirúrgica e idade ≥ 18 anos. Os critérios de exclusão foram imagens sem tecido tireoidiano. As 3.000 imagens ultrassonográficas incluíram 1.384 nódulos malignos …

Discussion

Este documento descreve em detalhes como executar a configuração do ambiente, a preparação de dados, a configuração do modelo e o treinamento de rede. Na fase de configuração do ambiente, é preciso prestar atenção para garantir que as bibliotecas dependentes sejam compatíveis e correspondidas. O processamento de dados é um passo muito importante; Tempo e esforço devem ser gastos para garantir a precisão das anotações. Ao treinar o modelo, um “ModuleNotFoundError” pode ser encontrado. Nesse caso, é neces…

Divulgations

The authors have nothing to disclose.

Acknowledgements

Este estudo foi apoiado pela Fundação Nacional de Ciências Naturais da China (Grant No.32101188) e pelo Projeto Geral do Departamento de Ciência e Tecnologia da Província de Sichuan (Grant No. 2021YFS0102), China.

Materials

GPU RTX3090 Nvidia 1 24G GPU
mmdetection2.11.0 SenseTime 4 https://github.com/open-mmlab/mmdetection.git
python3.8 2 https://www.python.org
pytorch1.7.1 Facebook 3 https://pytorch.org

References

  1. Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
  2. Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
  3. Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
  4. Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
  5. Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
  6. Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
  7. Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
  8. Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
  9. Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
  10. Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
  11. Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
  12. Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
  13. Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
  14. Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
  15. Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
  16. Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
  17. Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
  18. Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
  19. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
  20. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
  21. Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
  22. Dosovitskiy, A., et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
  23. Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
  24. Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
  25. Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
  26. Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
  27. Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
  28. Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
  29. Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
  30. Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
  31. Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
  32. Castleman, K. R. . Digital Image Processing. , (1996).
  33. Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
  34. Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
  35. Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
  36. Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).
check_url/fr/64480?article_type=t

Play Video

Citer Cet Article
Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

View Video