Amaç: Bu çalışmada yapay zeka programlarının pediatrik oftalmoloji ve şaşılık ile ilişkili çoktan seçmeli soruları cevaplamadaki başarı düzeylerine dil farklılıklarının etkilerinin incelenmesi amaçlandı.
Yöntemler: Pediatrik oftalmoloji ve şaşılık ile ilişkili 44 soru çalışmaya dâhil edildi. Soruların Türkçe çevirileri sertifikasyonlu çevirmen (native speaker) tarafından gerçekleştirildikten sonra hem İngilizce hem Türkçe versiyonları ChatGPT-3,5, Copilot ve Gemini yapay zeka sohbet botlarına uygulandı. Sorulara verilen cevaplar cevap anahtarı ile karşılaştırılarak doğru ve yanlış olarak gruplandırıldı.
Bulgular: İngilizce sorulara ChatGPT-3,5, Copilot ve Gemini sırası ile %56,8, %72,7 ve %56,8 oranında doğru cevap verdi (p=0,206). Türkçe sorulara ChatGPT-3,5, Copilot ve Gemini sırası ile %45,5, %68,2 ve %56,8 oranında doğru cevap verdi (p=0,099). Yapay zeka programları soruların İngilizce ve Türkçe versiyonlarını cevaplamada benzer başarı düzeylerine sahipti (p>0,05).
Sonuç: Sohbet botları her ne kadar soruları cevaplamada benzer performans göstermiş olsa bile sorular ayrı ayrı incelendiğinde aynı sorulara farklı cevaplar üretebilmişlerdir. Bu durum kullanıcıların sohbet botlarının doğruluğuna olan güvenini zedeleyebilir. Sohbet botlarının dil performanslarının geliştirilmeye ihtiyacı vardır.
Aim: This study aimed to investigate the effects of language differences on the success levels of artificial intelligence programs in answering multiple-choice questions related to pediatric ophthalmology and strabismus.
Methods: Forty-four questions related to pediatric ophthalmology and strabismus were included in the study. After the questions were translated into Turkish by a certified native speaker, both English and Turkish versions were applied to ChatGPT-3.5, Copilot, and Gemini artificial intelligence chatbots. The answers given to the questions were compared with the answer key and grouped as correct and incorrect.
Results: ChatGPT-3.5, Copilot, and Gemini answered the English questions correctly at a rate of 56.8%, 72.7%, and 56.8%, respectively (p = 0.206). ChatGPT-3.5, Copilot, and Gemini answered the Turkish questions correctly at a rate of 45.5%, 68.2%, and 56.8%, respectively (p = 0.099). Artificial intelligence programs had similar levels of success in answering the English and Turkish versions of the questions (p>0.05).
Conclusion: Although chatbots performed similarly in answering questions, they could produce different answers to the same questions when examined separately. This situation may undermine users’ trust in the chatbots’ accuracy. The language performance of chatbots needs to be improved.
ChatGPT-3.5 Copilot Gemini ophthalmology pediatrics strabismus
Birincil Dil | Türkçe |
---|---|
Konular | Klinik Tıp Bilimleri (Diğer) |
Bölüm | ORJİNAL MAKALE |
Yazarlar | |
Yayımlanma Tarihi | 29 Mayıs 2025 |
Gönderilme Tarihi | 30 Kasım 2024 |
Kabul Tarihi | 28 Aralık 2024 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 30 Sayı: 2 |
This Journal licensed under a CC BY-NC (Creative Commons Attribution-NonCommercial 4.0) International License.