Bu çalışmada, doğal dil işleme (NLP) modellerindeki sosyal önyargıların, veri çeşitliliği ve veri artırma yöntemleriyle nasıl azaltılabileceği araştırılmıştır. Özellikle, daha az yaygın dillere yönelik çeviri performansı ve önyargı oranları, veri çeşitliliği ve Generative Adversarial Networks (GAN) tabanlı veri artırma teknikleri ile analiz edilmiştir. Google Translate ve DeepL gibi popüler çeviri araçlarıyla yapılan deneyler, veri çeşitliliğinin çeviri doğruluğunu önemli ölçüde artırdığını ve BLEU puanlarını %40,8 oranında yükselttiğini göstermiştir. Ayrıca, cinsiyete dayalı önyargıların, özellikle meslekler konusunda, %33-41 oranında azaldığı belirlenmiştir. Veri çeşitliliği ve veri artırmanın çeviri kalitesi üzerindeki etkisi, regresyon analiziyle istatistiksel olarak doğrulanmıştır. Çalışma, veri çeşitliliğinin sadece çeviri doğruluğunu değil, aynı zamanda etik nötrlüğü de desteklediğini ortaya koymaktadır.
Doğal Dil İşleme (NLP) Yanlılık Sorunları Generative Adversarial Networks (GAN) Çeviri Performansı
In dieser Studie wird untersucht, wie soziale Verzerrungen in natürlichen Sprachverarbeitungsmodellen (NLP) durch Datenvielfalt und Datenerweiterungstechniken reduziert werden können. Insbesondere werden die Übersetzungsleistung und Verzerrungsraten in weniger verbreiteten Sprachen mithilfe von Datenvielfalt und GAN-basierter Datenerweiterung analysiert. Experimente mit gängigen Übersetzungswerkzeugen wie Google Translate und DeepL zeigen, dass vielfältigere Datensätze die Übersetzungsgenauigkeit erheblich verbessern und die BLEU-Werte um bis zu 40,8 % erhöhen. Darüber hinaus wurden geschlechtsspezifische Verzerrungen, insbesondere in Bezug auf Berufe, um 33-41 % reduziert. Eine Regressionsanalyse bestätigte statistisch die Auswirkungen von Datenvielfalt und Datenerweiterung auf die Übersetzungsqualität und die Reduzierung von Verzerrungen. Die Ergebnisse zeigen, dass mehr Datenvielfalt in ressourcenarmen Sprachen nicht nur die Übersetzungsgenauigkeit verbessert, sondern auch die ethische Neutralität fördert.
Natürliche Sprachverarbeitung (NLP) Verzerrungsprobleme Generative Adversarial Networks (GAN) Übersetzungsleistung.
This study explores how social biases in natural language processing (NLP) models can be mitigated through data diversity and data augmentation techniques. Specifically, translation performance and bias rates for less widely spoken languages are analyzed using data diversity and Generative Adversarial Networks (GAN)-based data augmentation methods. Experiments conducted with popular translation tools like Google Translate and DeepL show that data diversity significantly improves translation accuracy, increasing BLEU scores by 40.8%. Additionally, gender-based biases, especially regarding professions, were found to decrease by 33-41%. The impact of data diversity and augmentation on translation quality was statistically validated through regression analysis. The study demonstrates that data diversity not only enhances translation accuracy but also supports ethical neutrality.
Natural Language Processing (NLP) Bias Issues Generative Adversarial Networks (GAN) Translation Performance.
Birincil Dil | Almanca |
---|---|
Konular | Çeviri ve Yorum Çalışmaları, Karşılaştırmalı Dil Çalışmaları |
Bölüm | Araştırma Makalesi |
Yazarlar | |
Erken Görünüm Tarihi | 2 Mayıs 2025 |
Yayımlanma Tarihi | 12 Mayıs 2025 |
Gönderilme Tarihi | 1 Ocak 2025 |
Kabul Tarihi | 4 Mart 2025 |
Yayımlandığı Sayı | Yıl 2025 Sayı: 68 |