Özet
Amaç: Bu çalışmanın amacı, yapay zeka teknolojisini kullanan üç farklı büyük dil modelinin (LLM) ürolojik acil durumlarla ilgili temel sorulara verdiği yanıtların doğruluğunu ve yeterliliğini karşılaştırmaktır.
Gereçler ve Yöntemler: Dokuz farklı ürolojik acil durum konusu belirlendi ve her konu için tanı ile ilgili iki, hastalık yönetimi ile ilgili üç ve komplikasyonlar ile ilgili iki olmak üzere toplam 63 temel soru belirlendi. Sorular, her biri farklı altyapılar kullanan üç farklı ücretsiz AI platformunda (ChatGPT-4, Google Gemini 2.0 Flash ve Meta Llama 3.2) İngilizce olarak soruldu ve yanıtlar belgelendi. Yanıtlar, yazarlar tarafından doğruluk ve yeterliliğe göre 1 ila 4 arasında bir ölçekte puanlandı ve sonuçlar istatistiksel analiz kullanılarak karşılaştırıldı.
Sonuçlar: Tüm soru-cevap çiftleri genel olarak değerlendirildiğinde, ChatGPT, Gemini ve Meta Llama'ya kıyasla biraz daha yüksek doğruluk oranları sergiledi; Ancak, gruplar arasında istatistiksel olarak anlamlı bir fark tespit edilmedi (sırasıyla 3,8 ± 0,5, 3,7 ± 0,6 ve 3,7 ± 0,5; p=0,146). Tanı, tedavi yönetimi ve komplikasyonlarla ilgili sorular ayrı ayrı değerlendirildiğinde, üç LLM arasında istatistiksel olarak anlamlı bir fark tespit edilmedi (sırasıyla p=0,338, p=0,289 ve p=0,407). Gemini tarafından sağlanan yalnızca bir yanıtın tamamen yanlış olduğu bulundu (%1,6). Üç platformda da tanı ile ilgili sorularda yanıltıcı veya yanlış yanıtlar gözlemlenmedi. Toplamda, ChatGPT için 2 soruda (%3,2), Gemini için 3 soruda (%4,7) ve Meta Llama için 2 soruda (%3,2) yanıltıcı yanıtlar gözlemlendi.
Sonuç: LLM'ler çoğunlukla, acil tedavinin kritik olduğu ürolojik acil durumlarla ilgili temel ve anlaşılır sorulara doğru sonuçlar sağlar. Bu çalışmada karşılaştırılan üç LLM'nin yanıtları arasında önemli bir fark gözlenmese de, bu teknolojinin gelişen doğası ve sınırlamaları göz önünde bulundurulduğunda yanıltıcı ve yanlış yanıtların varlığı dikkatlice değerlendirilmelidir.
Anahtar Kelimeler: ürolojik aciller, yapay zeka, büyük dil modelleri
Objective: This study aimed to compare the accuracy and adequacy of responses provided by three different large language models (LLMs) utilizing artificial intelligence technology to fundamental questions related to urological emergencies.
Material and Methods: Nine distinct urological emergency topics were identified, and a total of 63 fundamental questions were formulated for each topic, including two related to diagnosis, three related to disease management, and two related to complications. The questions were posed in English on three different free AI platforms (ChatGPT-4, Google Gemini 2.0 Flash, and Meta Llama 3.2), each utilizing different infrastructures, and responses were documented. The answers were scored by the authors on a scale of 1 to 4 based on accuracy and adequacy, and the results were compared using statistical analysis.
Results: When all question-answer pairs were evaluated overall, ChatGPT exhibited slightly higher accuracy rates compared to Gemini and Meta Llama; however, no statistically significant differences were detected among the groups (3.8 ± 0.5, 3.7 ± 0.6, and 3.7 ± 0.5, respectively; p=0.146). When questions related to diagnosis, treatment management, and complications were evaluated separately, no statistically significant differences were detected among the three LLMs (p=0.338, p=0.289, and p=0.407, respectively). Only one response provided by Gemini was found to be completely incorrect (1.6%). No misleading or wrong answers were observed in the diagnosis-related questions across all three platforms. In total, misleading answers were observed in 2 questions (3.2%) for ChatGPT, three questions (4.7%) for Gemini, and two questions (3.2%) for Meta Llama.
Conclusion: LLMs predominantly provide accurate results to basic and straightforward questions related to urological emergencies, where prompt treatment is critical. Although no significant differences were observed among the responses of the three LLMs compared in this study, the presence of misleading and incorrect answers should be carefully considered, given the evolving nature and limitations of this technology.
Chat-GPT, Google Gemini, and Meta Llama are publicly available artificial intelligence models, and there are no animal or human research participants in our study. For these reasons, our study did not require ethics committee approval.
None.
Birincil Dil | İngilizce |
---|---|
Konular | Üroloji |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Yayımlanma Tarihi | 29 Haziran 2025 |
Gönderilme Tarihi | 22 Şubat 2025 |
Kabul Tarihi | 29 Mayıs 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 20 Sayı: 2 |