Large language models (LLMs) have recently become popular in many natural language processing tasks. There are fewer studies on LLMs in low-level languages such as Turkish. Therefore, the success of BERT, ALBERT, DistilBERT, mDeBERTa, and mT5 LLMs was analyzed for the Turkish question-answering task. The Turkish version of the benchmark dataset, SQuAD, was used as the dataset. As a result of training these LLMs by fine-tuning, mDeBERTa became the most successful model with 74.50% accuracy. In addition, the effect of the threshold value of the answer probability of these models and the semantic similarity between the predicted and actual answers of the LLMs were examined. When the effect of the threshold value was analyzed, an accuracy increase of up to 0.13% was observed in the accuracy value of LLMs. Analyzing the effect of semantic similarity on LLMs showed that the accuracy value increased between 0.7% and 6.59% and the most successful model was mDeBERTa with 79.09%. The results show that analyzing LLMs' threshold value and semantic similarity had a positive effect.
Large language model SQuAD SQuAD SQuAD SQuAD text generation question answering semantic similarity
Son zamanlarda, büyük dil modelleri (LLM) birçok doğal dil işleme görevinde oldukça popüler hale gelmiştir. Türkçe gibi düşük seviyeli dillerde LLM'ler üzerine daha az çalışma vardır. Bu nedenle, Türkçe soru-cevap görevi için BERT, ALBERT, DistilBERT, mDeBERTa ve mT5 LLM'lerinin başarısı analiz edilmiştir. Karşılaştırma SQuAD veri setinin Türkçe versiyonu veri seti olarak kullanılmıştır. Bu LLM'lerin ince ayar yapılarak eğitilmesi sonucunda, mDeBERTa %74.50 doğruluk ile en başarılı model olmuştur. Ayrıca, bu modellerin cevap olasılığına eşik değerinin etkisi ve LLM'lerin tahmin edilen ve gerçekleşen cevapları arasındaki anlamsal benzerlik incelenmiştir. Eşik değerinin etkisi analiz edildiğinde, LLM'lerin doğruluk değerinde %0.13'e kadar bir doğruluk artışı gözlenmiştir. Anlamsal benzerliğin LLM'ler üzerindeki etkisi analiz edildiğinde ise doğruluk değerinin %0.7 ile %6.59 arasında arttığı ve en başarılı modelin %79.09 ile mDeBERTa olduğu gösterilmiştir. Sonuç olarak, LLM'ler için eşik değeri ve anlamsal benzerliğin analiz edilmesinin olumlu bir etkiye sahip olduğunu göstermektedir.
Büyük dil modeli metin üretme soru cevaplama anlamsal benzerlik SQuAD SQuAD SQuAD SQuAD
Birincil Dil | Türkçe |
---|---|
Konular | Derin Öğrenme, Doğal Dil İşleme, Konuşma Üretimi |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 4 Haziran 2025 |
Yayımlanma Tarihi | |
Gönderilme Tarihi | 24 Ağustos 2024 |
Kabul Tarihi | 1 Şubat 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 40 Sayı: 3 |