Aims: This study aims to evaluate the usefulness and reliability of artificial intelligence (AI) applications in thoracic surgery internship education and exam preparation.
Methods: Claude Sonnet 3.7 AI was provided with core topics covered in the 5th-year thoracic surgery internship and was instructed to generate a 20-question multiple-choice exam, including an answer key. Four thoracic surgery specialists assessed the AI-generated questions using the Delphi panel method, classifying them as correct, minor error, or major error. Major errors included the absence of the correct answer among choices, incorrect AI-marked answers, or contradictions with established medical knowledge. A second exam was manually created by a thoracic surgery specialist and evaluated using the same methodology. Seven volunteer 5th-year medical students completed both exams, and the correlation between their scores was statistically analyzed.
Results: Among AI-generated questions, 8 (40%) contained major errors, while 1 (5%) had a minor error. The expert-generated exam had a perfect accuracy rate, whereas the AI-generated exam had significantly lower accuracy (p=0.001). Median scores were 75 (67-100) for the AI exam and 85 (70-95) for the expert exam. No significant correlation was found between students’ scores (r=0.042, p=0.929).
Conclusion: AI-generated questions had a high error rate (40% major, 5% minor), making them unreliable for unsupervised use in medical education. While AI may provide partial benefits under expert supervision, it currently lacks the accuracy required for independent implementation in thoracic surgery education.
Artificial ıntelligence thoracic surgery education multiple choice tests delphi technique
Prof. Dr. Osman Güler
Amaç
Bu çalışma, yapay zekâ (YZ) uygulamalarının göğüs cerrahisi staj eğitimi ve sınav hazırlığındaki faydasını ve güvenilirliğini değerlendirmeyi amaçlamaktadır.
Yöntemler
Claude Sonnet 3.7 YZ’ye, 5. sınıf göğüs cerrahisi stajında işlenen temel konular sağlandı ve 20 sorudan oluşan, cevap anahtarı içeren çoktan seçmeli bir sınav hazırlaması talep edildi. Dört göğüs cerrahisi uzmanı, YZ tarafından oluşturulan soruları Delphi panel yöntemi ile değerlendirerek “doğru”, “küçük hata” veya “büyük hata” olarak sınıflandırdı. Büyük hatalar, doğru cevabın seçenekler arasında yer almaması, YZ tarafından yanlış işaretlenen cevaplar veya yerleşik tıbbi bilgiyle çelişkiler olarak tanımlandı. Aynı yöntemle, bir göğüs cerrahisi uzmanı tarafından manuel olarak oluşturulan ikinci bir sınav da değerlendirildi. Yedi gönüllü 5. sınıf tıp öğrencisi her iki sınavı tamamladı ve puanlar arasındaki korelasyon istatistiksel olarak analiz edildi.
Bulgular
YZ tarafından oluşturulan soruların 8’inde (%40) büyük hata, 1’inde (%5) küçük hata tespit edildi. Uzman tarafından hazırlanan sınavın doğruluk oranı tam iken, YZ tarafından hazırlanan sınavın doğruluk oranı anlamlı derecede daha düşük bulundu (p = 0.001). YZ sınavının medyan puanı 75 (67-100), uzman sınavının medyan puanı ise 85 (70-95) olarak hesaplandı. Öğrencilerin iki sınavdaki puanları arasında anlamlı bir korelasyon bulunamadı (r=0.042, p=0.929).
Sonuç
YZ tarafından oluşturulan soruların yüksek hata oranına sahip olması (%40 büyük, %5 küçük hata), bunların tıp eğitiminde denetimsiz kullanım için güvenilir olmadığını göstermektedir. Yapay zekâ, uzman denetimi altında belirli avantajlar sağlayabilse de, göğüs cerrahisi eğitiminde bağımsız olarak uygulanabilecek doğruluğa henüz ulaşamamıştır.
Yapay Zekâ Göğüs Cerrahisi Eğitimi Çoktan Seçmeli Testler Delphi Tekniği.
Prof. Dr. Osman Güler
Birincil Dil | İngilizce |
---|---|
Konular | Göğüs Cerrahisi |
Bölüm | Orijinal Makale |
Yazarlar | |
Yayımlanma Tarihi | 30 Mayıs 2025 |
Gönderilme Tarihi | 18 Mart 2025 |
Kabul Tarihi | 27 Mayıs 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 8 Sayı: 3 |
Üniversitelerarası Kurul (ÜAK) Eşdeğerliği: Ulakbim TR Dizin'de olan dergilerde yayımlanan makale [10 PUAN] ve 1a, b, c hariç uluslararası indekslerde (1d) olan dergilerde yayımlanan makale [5 PUAN]
Dahil olduğumuz İndeksler (Dizinler) ve Platformlar sayfanın en altındadır.
Not: Dergimiz WOS indeksli değildir ve bu nedenle Q olarak sınıflandırılmamıştır.
Yüksek Öğretim Kurumu (YÖK) kriterlerine göre yağmacı/şüpheli dergiler hakkındaki kararları ile yazar aydınlatma metni ve dergi ücretlendirme politikasını tarayıcınızdan indirebilirsiniz. https://dergipark.org.tr/tr/journal/2316/file/4905/show
Dergi Dizin ve Platformları
Dizinler; ULAKBİM TR Dizin, Index Copernicus, ICI World of Journals, DOAJ, Directory of Research Journals Indexing (DRJI), General Impact Factor, ASOS Index, WorldCat (OCLC), MIAR, EuroPub, OpenAIRE, Türkiye Citation Index, Türk Medline Index, InfoBase Index, Scilit, vs.
Platformlar; Google Scholar, CrossRef (DOI), ResearchBib, Open Access, COPE, ICMJE, NCBI, ORCID, Creative Commons vs.