Objective: The aim of this study was to test the success of ChatGPT-4 in evaluating chest radiographs and detecting abnormal findings, and then to demonstrate its utility in computed tomography (CT) justification.
Methods: This study included 59 patients (20 patients in the first phase, and 39 patients in the second phase) from a publicly available chest X-ray dataset. X-rays were evaluated by an experienced chest radiologist (as gold standard), two radiology residents, and ChatGPT, first as normal-abnormal and then whether CT was needed if abnormal. Finally, the ChatGPT and two radiology residents' decisions were compared with the gold standard decision of the expert radiologist to obtain an accuracy value.
Results: The accuracy of Resident 1, Resident 2, and ChatGPT for normal-abnormal labeling was 76.27%, 93.22%, and 76.27%, respectively, for a total of 59 patients. The accuracy of Resident 1, Resident 2, and ChatGPT for CT necessity was 67.80%, 72.88%, and 66.10%, respectively. The expert radiologist determined that CT was not necessary in 30 patients. Of these 30 patients, Resident 1, Resident 2, and ChatGPT answered incorrectly in 14, 12, and 15 patients, respectively. There is no statistically significant difference between the responses of Resident 1, Resident 2, and ChatGPT for CT necessity (Chi-square, p=0.731).
Conclusion: The results of this study show that ChatGPT-4 is promising for chest X-ray interpretation and justification of CT scans. However, large language models such as ChatGPT, which still have major limitations, should be trained with a much larger number of radiology images.
No ethics committee approval is required in this article since a publicly available dataset is used. The principles of the Declaration of Helsinki were followed during this study.
Amaç: Bu çalışmanın amacı, ChatGPT-4'ün akciğer grafilerini değerlendirmede ve anormal bulguları saptamadaki başarısını test edip ardından bilgisayarlı tomografi (BT) gerekçelendirmesi konusunda faydasını ortaya koymaktır.
Gereç ve Yöntem: Bu çalışmaya kamuya açık bir akciğer röntgeni veri setinden toplam 59 hasta (ilk aşamada 20 hasta, ikinci aşamada 39 hasta) dahil edilmiştir. Röntgenler deneyimli bir göğüs radyoloğu (altın standart olarak), iki radyoloji asistanı ve ChatGPT tarafından önce normal-anormal olarak, sonra da anormalse BT gerekip gerekmediği açısından değerlendirilmiştir. Son olarak, ChatGPT ve iki radyoloji asistanının kararları, bir doğruluk değeri elde etmek için uzman radyoloğun altın standart kararı ile karşılaştırılmıştır.
Bulgular: Normal-anormal etiketleme için Asistan 1, Asistan 2 ve ChatGPT'nin doğruluğu toplam 59 hasta için sırasıyla %76,27, %93,22 ve %76,27 idi. BT gerekliliği için Asistan 1, Asistan 2 ve ChatGPT'nin doğruluğu sırasıyla %67,80, %72,88 ve %66,10'dur. Uzman radyolog 30 hastada BT'nin gerekli olmadığına karar vermiştir. Bu 30 hastanın 14'ünde Asistan 1, 12'sinde Asistan 2 ve 15'inde ChatGPT yanlış yanıt vermiştir. BT gerekliliği için Asistan 1, Asistan 2 ve ChatGPT'nin yanıtları arasında istatistiksel olarak anlamlı bir fark yoktur (Ki-kare, p=0,731).
Sonuç: Bu çalışmanın sonuçları ChatGPT-4'ün akciğer grafisi yorumlama ve BT taramalarının gerekçelendirilmesi için umut verici olduğunu göstermektedir. Bununla birlikte, ChatGPT gibi hala önemli sınırlamaları olan büyük dil modelleri, çok daha fazla sayıda radyoloji görüntüsü ile eğitilmelidir.
Primary Language | English |
---|---|
Subjects | Radiology and Organ Imaging |
Journal Section | Research Articles |
Authors | |
Publication Date | June 30, 2025 |
Submission Date | February 4, 2025 |
Acceptance Date | May 15, 2025 |
Published in Issue | Year 2025 Volume: 2 Issue: 2 |