Summary

Un modelo basado en transformador de Swin para la detección de nódulos tiroideos en imágenes de ultrasonido

Published: April 21, 2023
doi:

Summary

Aquí, se propone un nuevo modelo para la detección de nódulos tiroideos en imágenes de ultrasonido, que utiliza Swin Transformer como columna vertebral para realizar modelos de contexto de largo alcance. Los experimentos demuestran que funciona bien en términos de sensibilidad y precisión.

Abstract

En los últimos años, la incidencia de cáncer de tiroides ha ido en aumento. La detección de nódulos tiroideos es fundamental tanto para la detección como para el tratamiento del cáncer de tiroides. Las redes neuronales convolucionales (CNN) han logrado buenos resultados en las tareas de análisis de imágenes de ultrasonido tiroideo. Sin embargo, debido al limitado campo receptivo válido de las capas convolucionales, las CNN no logran capturar dependencias contextuales de largo alcance, que son importantes para identificar nódulos tiroideos en imágenes de ultrasonido. Las redes de transformadores son eficaces para capturar información contextual de largo alcance. Inspirados en esto, proponemos un nuevo método de detección de nódulos tiroideos que combina la columna vertebral Swin Transformer y Faster R-CNN. Específicamente, una imagen de ultrasonido se proyecta primero en una secuencia 1D de incrustaciones, que luego se introducen en un transformador Swin jerárquico.

La columna vertebral de Swin Transformer extrae características en cinco escalas diferentes mediante la utilización de ventanas desplazadas para el cálculo de la autoatención. Posteriormente, se utiliza una red piramidal de entidades (FPN) para fusionar las entidades de diferentes escalas. Finalmente, se utiliza un cabezal de detección para predecir los cuadros delimitadores y las puntuaciones de confianza correspondientes. Los datos recopilados de 2.680 pacientes se utilizaron para realizar los experimentos, y los resultados mostraron que este método logró la mejor puntuación de mAP del 44,8%, superando las líneas de base basadas en CNN. Además, ganamos mejor sensibilidad (90,5%) que los competidores. Esto indica que el modelado de contexto en este modelo es eficaz para la detección de nódulos tiroideos.

Introduction

La incidencia de cáncer de tiroides ha aumentado rápidamente desde 1970, especialmente entre las mujeres de mediana edad1. Los nódulos tiroideos pueden predecir la aparición de cáncer de tiroides, y la mayoría de los nódulos tiroideos son asintomáticos2. La detección temprana de nódulos tiroideos es muy útil para curar el cáncer de tiroides. Por lo tanto, de acuerdo con las guías de práctica actuales, todos los pacientes con sospecha de bocio nodular en el examen físico o con hallazgos anormales de imagen deben someterse a un examen adicional 3,4.

La ecografía tiroidea (US) es un método común utilizado para detectar y caracterizar las lesiones tiroideas 5,6. US es una tecnología conveniente, económica y libre de radiación. Sin embargo, la aplicación de US se ve fácilmente afectada por el operador 7,8. Características como la forma, el tamaño, la ecogenicidad y la textura de los nódulos tiroideos son fácilmente distinguibles en las imágenes estadounidenses. Aunque ciertas características de EE.UU. -calcificaciones, ecogenicidad y bordes irregulares- a menudo se consideran criterios para identificar nódulos tiroideos, la presencia de variabilidad interobservador es inevitable 8,9. Los resultados del diagnóstico de los radiólogos con diferentes niveles de experiencia son diferentes. Los radiólogos sin experiencia son más propensos a diagnosticar erróneamente que los radiólogos experimentados. Algunas características de US, como reflejos, sombras y ecos, pueden degradar la calidad de la imagen. Esta degradación en la calidad de la imagen causada por la naturaleza de las imágenes de EE.UU. hace que sea difícil incluso para los médicos experimentados localizar los nódulos con precisión.

El diagnóstico asistido por computadora (EAC) para los nódulos tiroideos se ha desarrollado rápidamente en los últimos años y puede reducir eficazmente los errores causados por diferentes médicos y ayudar a los radiólogos a diagnosticar los nódulos de forma rápida y precisa10,11. Se han propuesto varios sistemas CAD basados en CNN para el análisis de nódulos tiroideos de EE.UU., incluida la segmentación 12,13, la detección 14,15 y la clasificación 16,17. CNN es un modelo de aprendizaje supervisadomulticapa 18, y los módulos centrales de CNN son las capas de convolución y agrupación. Las capas de convolución se utilizan para la extracción de entidades y las capas de agrupación se utilizan para el muestreo descendente. Las capas convolucionales de sombra pueden extraer características primarias como la textura, los bordes y los contornos, mientras que las capas convolucionales profundas aprenden características semánticas de alto nivel.

Las CNN han tenido un gran éxito en la visión por computadora 19,20,21. Sin embargo, las CNN no logran capturar dependencias contextuales de largo alcance debido al limitado campo receptivo válido de las capas convolucionales. En el pasado, las arquitecturas troncales para la clasificación de imágenes utilizaban principalmente CNN. Con la llegada del transformador de visión (ViT)22,23, esta tendencia ha cambiado, y ahora muchos modelos de última generación utilizan transformadores como columna vertebral. Basado en parches de imagen no superpuestos, ViT utiliza un codificador transformador estándar25 para modelar globalmente las relaciones espaciales. El Swin Transformer24 introduce además ventanas de cambio para aprender características. Las ventanas de desplazamiento no solo aportan una mayor eficiencia, sino que también reducen en gran medida la longitud de la secuencia porque la autoatención se calcula en la ventana. Al mismo tiempo, la interacción entre dos ventanas adyacentes se puede hacer a través de la operación de desplazamiento (movimiento). La aplicación exitosa del transformador Swin en visión artificial ha llevado a la investigación de arquitecturas basadas en transformadores para el análisis de imágenes de ultrasonido26.

Recientemente, Li et al. propusieron un enfoque de aprendizaje profundo28 para la detección del cáncer papilar de tiroides inspirado en Faster R-CNN27. Faster R-CNN es una arquitectura clásica de detección de objetos basada en CNN. El R Faster original tiene cuatro módulos: la red troncal CNN, la red de propuestas de región (RPN), la capa de agrupación de ROI y el cabezal de detección. La red troncal de CNN utiliza un conjunto de capas básicas conv+bn+relu+pooling para extraer mapas de entidades de la imagen de entrada. A continuación, los mapas de entidades se introducen en la RPN y la capa de agrupación de ROI. El papel de la red RPN es generar propuestas regionales. Este módulo utiliza softmax para determinar si los anclajes son positivos y genera anclajes precisos mediante la regresión de cuadro delimitador. La capa de agrupación de ROI extrae los mapas de entidades de la propuesta recopilando los mapas de entidades de entrada y las propuestas y alimenta los mapas de entidades de la propuesta en el cabezal de detección posterior. El cabezal de detección utiliza los mapas de entidades de propuesta para clasificar objetos y obtener posiciones precisas de los cuadros de detección mediante regresión de cuadro delimitador.

Este artículo presenta una nueva red de detección de nódulos tiroideos llamada Swin Faster R-CNN formada al reemplazar la columna vertebral de CNN en Faster R-CNN con el transformador Swin, lo que resulta en una mejor extracción de características para la detección de nódulos a partir de imágenes de ultrasonido. Además, la red piramidal de características (FPN)29 se utiliza para mejorar el rendimiento de detección del modelo para nódulos de diferentes tamaños mediante la agregación de características de diferentes escalas.

Protocol

Este estudio retrospectivo fue aprobado por la junta de revisión institucional del Hospital de China Occidental, Universidad de Sichuan, Sichuan, China, y se renunció al requisito de obtener el consentimiento informado. 1. Configuración del entorno Software de unidad de procesamiento gráfico (GPU)Para implementar aplicaciones de aprendizaje profundo, primero configure el entorno relacionado con la GPU. Descargue e instale el software y los controladores a…

Representative Results

Las imágenes de tiroides de Estados Unidos se recopilaron de dos hospitales en China desde septiembre de 2008 hasta febrero de 2018. Los criterios de elegibilidad para incluir las imágenes de EE.UU. en este estudio fueron el examen convencional de EE.UU. antes de la biopsia y el tratamiento quirúrgico, el diagnóstico con biopsia o patología posquirúrgica, y la edad ≥ 18 años. Los criterios de exclusión fueron imágenes sin tejido tiroideo. Las 3.000 imágenes de ultrasonido incluyero…

Discussion

Este documento describe en detalle cómo realizar la configuración del entorno, la preparación de datos, la configuración del modelo y el entrenamiento de la red. En la fase de configuración del entorno, hay que prestar atención para asegurarse de que las bibliotecas dependientes sean compatibles y coinciden. El procesamiento de datos es un paso muy importante; Se debe dedicar tiempo y esfuerzo para garantizar la exactitud de las anotaciones. Al entrenar el modelo, se puede encontrar un “ModuleNotFoundError”. En est…

Disclosures

The authors have nothing to disclose.

Acknowledgements

Este estudio fue apoyado por la Fundación Nacional de Ciencias Naturales de China (Subvención No.32101188) y el Proyecto General del Departamento de Ciencia y Tecnología de la Provincia de Sichuan (Subvención No. 2021YFS0102), China.

Materials

GPU RTX3090 Nvidia 1 24G GPU
mmdetection2.11.0 SenseTime 4 https://github.com/open-mmlab/mmdetection.git
python3.8 2 https://www.python.org
pytorch1.7.1 Facebook 3 https://pytorch.org

References

  1. Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
  2. Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
  3. Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
  4. Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
  5. Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
  6. Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
  7. Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
  8. Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
  9. Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
  10. Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
  11. Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
  12. Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
  13. Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
  14. Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
  15. Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
  16. Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
  17. Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
  18. Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
  19. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
  20. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
  21. Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
  22. Dosovitskiy, A., et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
  23. Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
  24. Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
  25. Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
  26. Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
  27. Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
  28. Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
  29. Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
  30. Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
  31. Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
  32. Castleman, K. R. . Digital Image Processing. , (1996).
  33. Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
  34. Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
  35. Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
  36. Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).
check_url/64480?article_type=t

Play Video

Cite This Article
Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

View Video