Summary

초음파 영상에서 갑상선 결절 검출을 위한 Swin Transformer 기반 모델

Published: April 21, 2023
doi:

Summary

여기에서는 Swin Transformer를 백본으로 사용하여 장거리 컨텍스트 모델링을 수행하는 초음파 영상에서 갑상선 결절 감지를 위한 새로운 모델을 제안합니다. 실험은 감도와 정확성 측면에서 잘 수행된다는 것을 증명합니다.

Abstract

최근 몇 년 동안 갑상선암 발병률이 증가하고 있습니다. 갑상선 결절 검출은 갑상선암의 발견과 치료 모두에 중요합니다. CNN(Convolutional Neural Networks)은 갑상선 초음파 이미지 분석 작업에서 좋은 결과를 얻었습니다. 그러나 컨볼루션 레이어의 제한된 유효 수용 필드로 인해 CNN은 초음파 이미지에서 갑상선 결절을 식별하는 데 중요한 장거리 문맥 종속성을 포착하지 못합니다. 트랜스포머 네트워크는 장거리 컨텍스트 정보를 캡처하는 데 효과적입니다. 이에 영감을 받아 Swin Transformer 백본과 Faster R-CNN을 결합한 새로운 갑상선 결절 검출 방법을 제안합니다. 특히, 초음파 영상은 먼저 임베딩의 1D 시퀀스로 투영된 다음 계층적 Swin Transformer에 공급됩니다.

Swin 트랜스포머 백본은 자기 주의력 계산을 위해 이동된 창을 활용하여 5가지 다른 스케일에서 기능을 추출합니다. 그 후, FPN(Feature Pyramid Network)을 사용하여 서로 다른 스케일의 피처를 융합합니다. 마지막으로, 감지 헤드는 경계 상자와 해당 신뢰도 점수를 예측하는 데 사용됩니다. 2,680명의 환자로부터 수집한 데이터를 사용하여 실험을 수행했으며, 그 결과 이 방법이 44.8%의 최고의 mAP 점수를 달성하여 CNN 기반 기준선을 능가하는 것으로 나타났습니다. 또한 경쟁사보다 감도(90.5%)가 더 좋아졌습니다. 이는 이 모델의 컨텍스트 모델링이 갑상선 결절 감지에 효과적임을 나타냅니다.

Introduction

갑상선암 발병률은 1970년 이래로 급격히 증가했으며, 특히 중년 여성에서 증가했다1. 갑상선 결절은 갑상선암의 발병을 예측할 수 있으며, 대부분의 갑상선 결절은 무증상이다2. 갑상선 결절의 조기 발견은 갑상선암 치료에 매우 도움이 됩니다. 따라서 현행 진료지침에 따르면 신체검사에서 결절성 갑상선종이 의심되거나 비정상적인 영상 소견이 있는 모든 환자는 추가 검사를 받아야 한다 3,4.

갑상선 초음파(US)는 갑상선 병변을 감지하고 특성화하는 데 사용되는 일반적인 방법입니다 5,6. 미국은 편리하고 저렴하며 방사선이 없는 기술입니다. 그러나, US의 적용은 오퍼레이터 7,8에 의해 쉽게 영향을 받는다. 갑상선 결절의 모양, 크기, 에코 발생 및 질감과 같은 특징은 미국 이미지에서 쉽게 구별할 수 있습니다. 석회화, 에코 발생 및 불규칙한 경계와 같은 특정 미국 특징이 종종 갑상선 결절을 식별하는 기준으로 간주되지만 관찰자 간 가변성의 존재는 피할 수 없습니다 8,9. 다양한 수준의 경험을 가진 방사선 전문의의 진단 결과는 다릅니다. 경험이 없는 방사선 전문의는 숙련된 방사선 전문의보다 오진할 가능성이 더 큽니다. 반사, 그림자 및 에코와 같은 미국의 일부 특성은 이미지 품질을 저하시킬 수 있습니다. 미국 이미징의 특성으로 인한 이러한 이미지 품질 저하로 인해 숙련된 의사조차도 결절을 정확하게 찾기가 어렵습니다.

갑상선 결절에 대한 컴퓨터 지원 진단(CAD)은 최근 몇 년 동안 빠르게 발전했으며 다양한 의사로 인한 오류를 효과적으로 줄이고 방사선 전문의가 결절을 빠르고 정확하게 진단하는 데 도움을 줄 수 있습니다10,11. 갑상선 미국 결절 분석을 위해 다양한 CNN 기반 CAD 시스템이 제안되었으며, 여기에는 세분화 12,13, 검출 14,15 및 분류 16,17이 포함됩니다. CNN은 다층, 지도 학습 모델(18)이며, CNN의 핵심 모듈은 컨볼루션 및 풀링 계층이다. 컨볼루션 계층은 특징 추출에 사용되고, 풀링 계층은 다운샘플링에 사용됩니다. 그림자 컨벌루션 계층은 텍스처, 가장자리, 윤곽선과 같은 기본 특징을 추출할 수 있는 반면, 심층 컨벌루션 계층은 높은 수준의 의미론적 특징을 학습합니다.

CNN은 컴퓨터 비전 19,20,21에서 큰 성공을 거두었습니다. 그러나 CNN은 컨볼루션 계층의 제한된 유효 수용 필드로 인해 장거리 컨텍스트 종속성을 캡처하지 못합니다. 과거에는 이미지 분류를 위한 백본 아키텍처가 주로 CNN을 사용했습니다. 비전 트랜스포머(ViT)22,23의 출현으로 이러한 추세가 바뀌었고 이제 많은 최첨단 모델이 트랜스포머를 백본으로 사용합니다. 비중첩 이미지 패치에 기초하여, ViT는 표준 트랜스포머 인코더(25)를 사용하여 공간 관계를 전역적으로 모델링한다. Swin Transformer24는 기능을 학습하기 위해 시프트 윈도우를 추가로 도입합니다. 시프트 윈도우는 효율성을 높일 뿐만 아니라 창에서 자기 주의가 계산되기 때문에 시퀀스의 길이를 크게 줄입니다. 동시에, 인접한 두 창 사이의 상호 작용은 이동 (이동) 작업을 통해 이루어질 수 있습니다. 컴퓨터 비전에 Swin Transformer를 성공적으로 적용함으로써 초음파 이미지 분석을 위한 트랜스포머 기반 아키텍처에 대한 조사가 이루어졌습니다(26).

최근 Li et al. 갑상선 유두암 검출을 위한 딥 러닝 접근법28 Faster R-CNN27에서 영감을 받았습니다. 더 빠른 속도 R-CNN은 고전적인 CNN 기반 개체 감지 아키텍처입니다. 원래 Faster R-CNN에는 CNN 백본, RPN(지역 제안 네트워크), ROI 풀링 계층 및 검색 헤드의 네 가지 모듈이 있습니다. CNN 백본은 기본 conv+bn+relu+pooling 계층 집합을 사용하여 입력 이미지에서 특징 맵을 추출합니다. 그런 다음 기능 맵이 RPN 및 ROI 풀링 계층에 공급됩니다. RPN 네트워크의 역할은 지역 제안을 생성하는 것입니다. 이 모듈은 softmax를 사용하여 앵커가 양수인지 여부를 확인하고 경계 상자 회귀를 통해 정확한 앵커를 생성합니다. ROI 풀링 계층은 입력 특징 맵과 제안을 수집하여 제안 특징 맵을 추출하고 제안 특징 맵을 후속 탐지 헤드에 공급합니다. 탐지 헤드는 제안 특징 맵을 사용하여 객체를 분류하고 경계 상자 회귀를 통해 탐지 상자의 정확한 위치를 얻습니다.

이 논문은 Faster R-CNN의 CNN 백본을 Swin Transformer로 대체하여 형성된 Swin Faster R-CNN이라는 새로운 갑상선 결절 감지 네트워크를 제시하며, 그 결과 초음파 이미지에서 결절 감지를 위한 기능을 더 잘 추출할 수 있습니다. 또한, 특징 피라미드 네트워크(FPN)29 는 다양한 스케일의 특징을 집계하여 다양한 크기의 결절에 대한 모델의 검출 성능을 향상시키는 데 사용됩니다.

Protocol

이 후향적 연구는 중국 쓰촨성 쓰촨대학교 서중국병원 임상시험심사위원회의 승인을 받았으며 정보에 입각한 동의를 얻어야 하는 요건이 면제되었습니다. 1. 환경 설정 그래픽 처리 장치(GPU) 소프트웨어딥러닝 애플리케이션을 구현하기 위해서는 먼저 GPU 관련 환경을 설정해야 합니다. GPU 웹 사이트에서 GPU에 적합한 소프트웨어 및 드라이버를 다운?…

Representative Results

갑상선 미국 이미지는 2008 년 9 월부터 2018 년 2 월까지 중국의 두 병원에서 수집되었습니다. 본 연구에 미국 이미지를 포함하기 위한 적격성 기준은 생검 및 외과적 치료 전의 기존 미국 검사, 생검 또는 수술 후 병리 진단, 18세 ≥세였습니다. 제외 기준은 갑상선 조직이 없는 영상이었다. 3,000개의 초음파 영상에는 1,384개의 악성 결절과 1,616개의 양성 결절이 포함되었습니다. ?…

Discussion

이 백서에서는 환경 설정, 데이터 준비, 모델 구성 및 네트워크 학습을 수행하는 방법에 대해 자세히 설명합니다. 환경 설정 단계에서는 종속 라이브러리가 호환되고 일치하는지 확인하기 위해 주의를 기울여야 합니다. 데이터 처리는 매우 중요한 단계입니다. 주석의 정확성을 보장하기 위해 시간과 노력을 들여야 합니다. 모델을 학습할 때 “ModuleNotFoundError”가 발생할 수 있습니다. 이 경우 “pip insta…

Disclosures

The authors have nothing to disclose.

Acknowledgements

이 연구는 중국 국립 자연 과학 재단(보조금 번호 32101188)과 중국 쓰촨성 과학 기술부 일반 프로젝트(보조금 번호 2021YFS0102)의 지원을 받았습니다.

Materials

GPU RTX3090 Nvidia 1 24G GPU
mmdetection2.11.0 SenseTime 4 https://github.com/open-mmlab/mmdetection.git
python3.8 2 https://www.python.org
pytorch1.7.1 Facebook 3 https://pytorch.org

References

  1. Grant, E. G., et al. Thyroid ultrasound reporting lexicon: White paper of the ACR Thyroid Imaging, Reporting and Data System (TIRADS) committee. Journal of the American College of Radiology. 12 (12 Pt A), 1272-1279 (2015).
  2. Zhao, J., Zheng, W., Zhang, L., Tian, H. Segmentation of ultrasound images of thyroid nodule for assisting fine needle aspiration cytology. Health Information Science and Systems. 1, 5 (2013).
  3. Haugen, B. R. American Thyroid Association management guidelines for adult patients with thyroid nodules and differentiated thyroid cancer: What is new and what has changed. Cancer. 123 (3), 372-381 (2017).
  4. Shin, J. H., et al. Ultrasonography diagnosis and imaging-based management of thyroid nodules: Revised Korean Society of Thyroid Radiology consensus statement and recommendations. Korean Journal of Radiology. 17 (3), 370-395 (2016).
  5. Horvath, E., et al. An ultrasonogram reporting system for thyroid nodules stratifying cancer risk for clinical management. The Journal of Clinical Endocrinology & Metabolism. 94 (5), 1748-1751 (2009).
  6. Park, J. -. Y., et al. A proposal for a thyroid imaging reporting and data system for ultrasound features of thyroid carcinoma. Thyroid. 19 (11), 1257-1264 (2009).
  7. Moon, W. -. J., et al. Benign and malignant thyroid nodules: US differentiation-Multicenter retrospective study. Radiology. 247 (3), 762-770 (2008).
  8. Park, C. S., et al. Observer variability in the sonographic evaluation of thyroid nodules. Journal of Clinical Ultrasound. 38 (6), 287-293 (2010).
  9. Kim, S. H., et al. Observer variability and the performance between faculties and residents: US criteria for benign and malignant thyroid nodules. Korean Journal of Radiology. 11 (2), 149-155 (2010).
  10. Choi, Y. J., et al. A computer-aided diagnosis system using artificial intelligence for the diagnosis and characterization of thyroid nodules on ultrasound: initial clinical assessment. Thyroid. 27 (4), 546-552 (2017).
  11. Chang, T. -. C. The role of computer-aided detection and diagnosis system in the differential diagnosis of thyroid lesions in ultrasonography. Journal of Medical Ultrasound. 23 (4), 177-184 (2015).
  12. Li, X. Fully convolutional networks for ultrasound image segmentation of thyroid nodules. , 886-890 (2018).
  13. Nguyen, D. T., Choi, J., Park, K. R. Thyroid nodule segmentation in ultrasound image based on information fusion of suggestion and enhancement networks. Mathematics. 10 (19), 3484 (2022).
  14. Ma, J., Wu, F., Jiang, T. A., Zhu, J., Kong, D. Cascade convolutional neural networks for automatic detection of thyroid nodules in ultrasound images. Medical Physics. 44 (5), 1678-1691 (2017).
  15. Song, W., et al. Multitask cascade convolution neural networks for automatic thyroid nodule detection and recognition. IEEE Journal of Biomedical and Health Informatics. 23 (3), 1215-1224 (2018).
  16. Wang, J., et al. Learning from weakly-labeled clinical data for automatic thyroid nodule classification in ultrasound images. , 3114-3118 (2018).
  17. Wang, L., et al. A multi-scale densely connected convolutional neural network for automated thyroid nodule classification. Frontiers in Neuroscience. 16, 878718 (2022).
  18. Krizhevsky, A., Sutskever, I., Hinton, G. E. Imagenet classification with deep convolutional neural networks. Communications of the ACM. 60 (6), 84-90 (2017).
  19. He, K., Zhang, X., Ren, S., Sun, J. Deep residual learning for image recognition. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 770-778 (2016).
  20. Hu, H., Gu, J., Zhang, Z., Dai, J., Wei, Y. Relation networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 3588-3597 (2018).
  21. Szegedy, C., et al. Going deeper with convolutions. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 1-9 (2015).
  22. Dosovitskiy, A., et al. An image is worth 16×16 words: Transformers for image recognition at scale. arXiv preprint arXiv:2010.11929. , (2020).
  23. Touvron, H., et al. Training data-efficient image transformers & distillation through attention. arXiv:2012.12877. , (2021).
  24. Liu, Z., et al. Swin Transformer: Hierarchical vision transformer using shifted windows. 2021 IEEE/CVF International Conference on Computer Vision (ICCV). , 9992-10002 (2021).
  25. Vaswani, A., et al. Attention is all you need. Advances in Neural Information Processing Systems. 30, (2017).
  26. Chen, J., et al. TransUNet: Transformers make strong encoders for medical image segmentation. arXiv. arXiv:2102.04306. , (2021).
  27. Ren, S., He, K., Girshick, R., Sun, J. Faster r-cnn: Towards real-time object detection with region proposal networks. Advances in Neural Information Processing Systems. 28, 91-99 (2015).
  28. Li, H., et al. An improved deep learning approach for detection of thyroid papillary cancer in ultrasound images. Scientific Reports. 8, 6600 (2018).
  29. Lin, T. -. Y., et al. Feature pyramid networks for object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. , 2117-2125 (2017).
  30. Ouahabi, A. A review of wavelet denoising in medical imaging. 2013 8th International Workshop on Systems, Signal Processing and their Applications. , 19-26 (2013).
  31. Mahdaoui, A. E., Ouahabi, A., Moulay, M. S. Image denoising using a compressive sensing approach based on regularization constraints. Sensors. 22 (6), 2199 (2022).
  32. Castleman, K. R. . Digital Image Processing. , (1996).
  33. Liu, W., et al. Ssd: Single shot multibox detector. European Conference on Computer Vision. , 21-37 (2016).
  34. Redmon, J., Farhadi, A. Yolov3: An incremental improvement. arXiv. arXiv:1804.02767. , (2018).
  35. Lin, T. -. Y., Goyal, P., Girshick, R., He, K., Dollár, P. Focalloss for dense object detection. arXiv. arXiv:1708.02002. , (2017).
  36. Carion, N., et al. End-to-end object detection with transformers. Computer Vision-ECCV 2020: 16th European Conference. , 23-28 (2020).
check_url/64480?article_type=t

Play Video

Cite This Article
Tian, Y., Zhu, J., Zhang, L., Mou, L., Zhu, X., Shi, Y., Ma, B., Zhao, W. A Swin Transformer-Based Model for Thyroid Nodule Detection in Ultrasound Images. J. Vis. Exp. (194), e64480, doi:10.3791/64480 (2023).

View Video