Research Article
BibTex RIS Cite

İnce Ayar Yapılmış Ön Eğitimli Dil Modelleri ile Türkçe Siber Zorbalık Tespiti

Year 2025, Volume: 18 Issue: 2, 115 - 127, 30.04.2025
https://doi.org/10.17671/gazibtd.1528238

Abstract

İnternet kullanımının hızla artması ve hayatın her alanında yaygın hale gelmesiyle birlikte, sosyal medya platformlarında olumlu katkıların yanı sıra bazı olumsuz davranışlar da artış göstermiştir. Bu olumsuz davranışlardan biri, başkalarına zarar vermek amacıyla bilgi ve iletişim teknolojilerinin kötüye kullanılmasını ifade eden siber zorbalıktır. Siber zorbalık, önemli bir toplumsal sorun haline gelmektedir. Bu çalışma, derin öğrenme modelleri kullanarak siber zorbalık içeren Türkçe cümleleri tespit etmeyi ve sınıflandırmayı amaçlamaktadır. Bu amaç doğrultusunda, dilin bağlamını anlama yeteneğiyle bilinen BERT modeli tercih edilmiştir. Özellikle, Türkçe dilini destekleyen BERTurk, DistilBERTurk ve ConvBERTurk modelleri, ırkçı, cinsiyetçi, saldırgan dil veya nötr olarak etiketlenen 3.388 tweet içeren bir veri kümesiyle ince ayar yapılarak yeniden eğitilmiştir. Çalışmanın temel hedefi, çok sınıflı Türk siber zorbalığını tespit eden modellerin kapsamlı bir karşılaştırmasını yapmak ve gerçek dünya verileri üzerinde yüksek doğrulukla sonuçlar üreten bir yapay zeka modeli geliştirmektir. Sonuçlara göre, BERTurk 0,88 F1 puanı ile en yüksek başarıyı elde ederken, DistilBERTurk modeli en düşük performansı göstermiştir.

References

  • O. Zorbaz, “Lise Öğrencilerinin Problemli İnternet Kullanımının Sosyal Kaygı ve Akran İlişkileri Açısından İncelenmesi.” Yüksek lisans tezi, Hacettepe Üniversitesi, Sosyal Bilimler Enstitüsü, Ankara, 2013.
  • F. Gültekin, “Saldırganlık ve Öfkeyi Azaltma Programının İlköğretim İkinci Kademe Öğrencilerinin Saldırganlık ve Öfke Düzeyleri Üzerindeki Etkisi”, Doktora Tezi, Hacettepe Üniversitesi, 2008.
  • M. Tuncer, M. Dikmen, “Sosyal Ağlarda Bekleyen Yeni Tehlike: Siber Zorbalık”, 4. International Instructional Technologies and Teacher Education Symposium, 94-104, 2016.
  • İ. Yıldırım, “Sosyal Medya, Dijital Bağımlılık ve Siber Zorbalık Ekseninde Değişen Aile İlişkileri Üzerine Bir Değerlendirme” . Anemon Muş Alparslan Üniversitesi Sosyal Bilimler Dergisi, 9.5: 1237-1258, 2021.
  • E. V. Altay, B. Alataş, ”Detection of Cyberbullying in Social Networks Using Machine Learning Methods” International Congress on Big Data, Deep Learning and Fighting Cyber Terrorism (IBIGDELFT). IEEE, p. 87-91, 3-4 Dec. 2018.
  • V. Balakrishnan, S. Khan, H. R. Arabnia, "Improving Cyberbullying Detection Using Twitter Users’ Psychological Features and Machine Learning.", Computers & Security 90, 101710, 2020.
  • O. Sevli, & S. Sezgin, “Sosyal Medya Paylaşımlarında Siber Zorbalığın Tespiti ve Kategorizasyonuna Yönelik Makine Öğrenmesine Dayalı Bir Sınıflandırma”. Bursa 3rd International Scientific Research Congress, Bursa, 626-637, 2022.
  • D. S. Rohini, M. Ramchander, “A Comparative Study of Machine Learning Approaches for Cyberbullying Detection in Digital Forums”, International Conference on Advances in Computation, Communication and Information Technology (ICAICCIT) (pp. 332-338). IEEE, 23-24 Nov. 2023.
  • A. Bozyiğit, S. Utku, E. Nasibov, "Cyberbullying Detection: Utilizing Social Media Features", Expert Systems with Applications, 179, 115001, 2021.
  • Ç. Çöltekin, “A Corpus of Turkish Offensive Language on Social Media.” In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 6174-6184). Marseille, 11–16 May 2020.
  • İ. Sel, İlhami, D. Hanbay. “Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti” Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33.2: 675-684, 2021.
  • G. Nergiz, E. Avaroğlu. "Türkçe Sosyal Medya Yorumlarındaki Siber Zorbalığın Derin Öğrenme ile Tespiti." Avrupa Bilim ve Teknoloji Dergisi 31 :77-84, 2021.
  • E. Karaman, “Suriyeli Mültecilere Uygulanan Ayrımcı Dışlayıcı Twitlerin BERT Modeli ile Sınıflandırılması”. Ortadoğu Ve Göç, 12(2), 428-456, 2022.
  • F. Beyhan, B. Çarık, I. Arın, A. Terzioğlu, B. Yanıkoğlu, & R. A. Yeniterzi, Turkish Hate Speech Dataset and Detection System. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 4177-4185). (2022, June).
  • A. Çelıkten, H. Bulut "Turkish Medical Text Classification Using Bert." , 29th Signal Processing and Communications Applications Conference (SIU). IEEE, 9-11 June 2021.
  • B. Aytan, C. O. Sakar. "Comparison of Transformer-based Models Trained in Turkish and Different Languages on Turkish Natural Language Processing Problems." 30th Signal Processing and Communications Applications Conference (SIU). IEEE, 15-18 May 2022.
  • M. Özkan, G. Kar, “Türkçe Dilinde Yazılan Bilimsel Metinlerin Derin Öğrenme Tekniği Uygulanarak Çoklu Sınıflandırılması”. Mühendislik Bilimleri ve Tasarım Dergisi, 10.2: 504-519, 2022.
  • M. Arzu, M. Aydoğan, “Türkçe Duygu Sınıflandırma İçin Transformers Tabanlı Mimarilerin Karşılaştırılmalı Analizi”, Computer Science, (IDAP-2023), 1-6, 2023.
  • Internet: Nanelimon, Huggingface Datasets, https://huggingface.co/datasets/nanelimon/turkish-social-media-offensive-dataset, 1.03.2024.
  • Internet: A Corpus of Turkish Offensive Language, https://coltekin.github.io/offensive-turkish, 16.10.2024.
  • J. Devlin, M. W. Chang, K. Lee, K. Toutanova, “Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding” , arXiv preprint arXiv:1810.04805, 2018.
  • S. K. Behera, R. Dash, “A Novel Feature Selection Technique for Enhancing the Performance of Unbalanced Text Classification Problem”. Intelligent Decision Technologies, 16(1), 51-69, 2022.
  • Z. Jiang, W. Yu, D. Zhou, Y. Chen, J. Feng, S. Yan, "Convbert: Improving Bert with Span-Based Dynamic Convolution." Advances in Neural Information Processing Systems, 33: 12837-12848, 2020.
  • V. Sanh, L. Debut, J. Chaumond, T. Wolf, “DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter”, arXiv preprint arXiv:1910.01108, 2019.
  • T. Wolf, L. Debut, V. Sanh, J.Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz, J. Davison, S. Shleifer, P. V. Platen, C. Ma, Y.Jernite, Julien Plu, C. Xu, T. L. Scao, S. Gugger, M.Drame, Q. Lhoest, A., “Rush, Transformers: State-of-the-art Natural Language Processing”., Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 38-45), October 2020.
  • M. Turan, “Derin Öğrenme ile Beklenti Tabanlı Duygu Analizi”, Yüksek Lisans Tezi, Bursa Uludağ Üniversitesi, Fen Bilimleri Enstitüsü, 2022.
  • H. A. Ardaç, P. Erdoğmuş, “Question-Answering System with Text Mining and Deep Networks”. Evolving Systems, 1-13, 2024.
  • İnternet: B. N. Bekar, HuggingFace, https://huggingface.co/AIZinu, 21.7.2024.

Turkish Cyberbullying Detection with Fine-Tuned Pre-Trained Language Models

Year 2025, Volume: 18 Issue: 2, 115 - 127, 30.04.2025
https://doi.org/10.17671/gazibtd.1528238

Abstract

With the rapid increase in internet usage and its pervasive presence in all aspects of life, social media platforms have seen a rise in negative behaviors alongside their positive contributions. One such negative behavior is cyberbullying, which refers to the misuse of information and communication technologies to harm others. Cyberbullying is becoming a significant social problem. This study aims to detect and classify Turkish sentences containing cyberbullying using deep learning models. To achieve this, the BERT model, known for its ability to understand the context of language, was chosen. Specifically, the BERTurk, DistilBERTurk, and ConvBERTurk models—designed for the Turkish language—were fine-tuned and retrained using a dataset of 3,388 tweets labeled as racist, sexist, offensive language, or neutral. The primary goal of this study is to perform a comprehensive comparison of multi-class Turkish cyberbullying detection models and to develop an Artifical Intelligence (AI) model that delivers highly accurate results on real-world data. According to the results, BERTurk achieved the highest F1 score of 0.88, while the DistilBERTurk model showed the lowest performance.

References

  • O. Zorbaz, “Lise Öğrencilerinin Problemli İnternet Kullanımının Sosyal Kaygı ve Akran İlişkileri Açısından İncelenmesi.” Yüksek lisans tezi, Hacettepe Üniversitesi, Sosyal Bilimler Enstitüsü, Ankara, 2013.
  • F. Gültekin, “Saldırganlık ve Öfkeyi Azaltma Programının İlköğretim İkinci Kademe Öğrencilerinin Saldırganlık ve Öfke Düzeyleri Üzerindeki Etkisi”, Doktora Tezi, Hacettepe Üniversitesi, 2008.
  • M. Tuncer, M. Dikmen, “Sosyal Ağlarda Bekleyen Yeni Tehlike: Siber Zorbalık”, 4. International Instructional Technologies and Teacher Education Symposium, 94-104, 2016.
  • İ. Yıldırım, “Sosyal Medya, Dijital Bağımlılık ve Siber Zorbalık Ekseninde Değişen Aile İlişkileri Üzerine Bir Değerlendirme” . Anemon Muş Alparslan Üniversitesi Sosyal Bilimler Dergisi, 9.5: 1237-1258, 2021.
  • E. V. Altay, B. Alataş, ”Detection of Cyberbullying in Social Networks Using Machine Learning Methods” International Congress on Big Data, Deep Learning and Fighting Cyber Terrorism (IBIGDELFT). IEEE, p. 87-91, 3-4 Dec. 2018.
  • V. Balakrishnan, S. Khan, H. R. Arabnia, "Improving Cyberbullying Detection Using Twitter Users’ Psychological Features and Machine Learning.", Computers & Security 90, 101710, 2020.
  • O. Sevli, & S. Sezgin, “Sosyal Medya Paylaşımlarında Siber Zorbalığın Tespiti ve Kategorizasyonuna Yönelik Makine Öğrenmesine Dayalı Bir Sınıflandırma”. Bursa 3rd International Scientific Research Congress, Bursa, 626-637, 2022.
  • D. S. Rohini, M. Ramchander, “A Comparative Study of Machine Learning Approaches for Cyberbullying Detection in Digital Forums”, International Conference on Advances in Computation, Communication and Information Technology (ICAICCIT) (pp. 332-338). IEEE, 23-24 Nov. 2023.
  • A. Bozyiğit, S. Utku, E. Nasibov, "Cyberbullying Detection: Utilizing Social Media Features", Expert Systems with Applications, 179, 115001, 2021.
  • Ç. Çöltekin, “A Corpus of Turkish Offensive Language on Social Media.” In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 6174-6184). Marseille, 11–16 May 2020.
  • İ. Sel, İlhami, D. Hanbay. “Ön Eğitimli Dil Modelleri Kullanarak Türkçe Tweetlerden Cinsiyet Tespiti” Fırat Üniversitesi Mühendislik Bilimleri Dergisi, 33.2: 675-684, 2021.
  • G. Nergiz, E. Avaroğlu. "Türkçe Sosyal Medya Yorumlarındaki Siber Zorbalığın Derin Öğrenme ile Tespiti." Avrupa Bilim ve Teknoloji Dergisi 31 :77-84, 2021.
  • E. Karaman, “Suriyeli Mültecilere Uygulanan Ayrımcı Dışlayıcı Twitlerin BERT Modeli ile Sınıflandırılması”. Ortadoğu Ve Göç, 12(2), 428-456, 2022.
  • F. Beyhan, B. Çarık, I. Arın, A. Terzioğlu, B. Yanıkoğlu, & R. A. Yeniterzi, Turkish Hate Speech Dataset and Detection System. In Proceedings of the Thirteenth Language Resources and Evaluation Conference (pp. 4177-4185). (2022, June).
  • A. Çelıkten, H. Bulut "Turkish Medical Text Classification Using Bert." , 29th Signal Processing and Communications Applications Conference (SIU). IEEE, 9-11 June 2021.
  • B. Aytan, C. O. Sakar. "Comparison of Transformer-based Models Trained in Turkish and Different Languages on Turkish Natural Language Processing Problems." 30th Signal Processing and Communications Applications Conference (SIU). IEEE, 15-18 May 2022.
  • M. Özkan, G. Kar, “Türkçe Dilinde Yazılan Bilimsel Metinlerin Derin Öğrenme Tekniği Uygulanarak Çoklu Sınıflandırılması”. Mühendislik Bilimleri ve Tasarım Dergisi, 10.2: 504-519, 2022.
  • M. Arzu, M. Aydoğan, “Türkçe Duygu Sınıflandırma İçin Transformers Tabanlı Mimarilerin Karşılaştırılmalı Analizi”, Computer Science, (IDAP-2023), 1-6, 2023.
  • Internet: Nanelimon, Huggingface Datasets, https://huggingface.co/datasets/nanelimon/turkish-social-media-offensive-dataset, 1.03.2024.
  • Internet: A Corpus of Turkish Offensive Language, https://coltekin.github.io/offensive-turkish, 16.10.2024.
  • J. Devlin, M. W. Chang, K. Lee, K. Toutanova, “Bert: Pre-training of Deep Bidirectional Transformers for Language Understanding” , arXiv preprint arXiv:1810.04805, 2018.
  • S. K. Behera, R. Dash, “A Novel Feature Selection Technique for Enhancing the Performance of Unbalanced Text Classification Problem”. Intelligent Decision Technologies, 16(1), 51-69, 2022.
  • Z. Jiang, W. Yu, D. Zhou, Y. Chen, J. Feng, S. Yan, "Convbert: Improving Bert with Span-Based Dynamic Convolution." Advances in Neural Information Processing Systems, 33: 12837-12848, 2020.
  • V. Sanh, L. Debut, J. Chaumond, T. Wolf, “DistilBERT, a Distilled Version of BERT: Smaller, Faster, Cheaper and Lighter”, arXiv preprint arXiv:1910.01108, 2019.
  • T. Wolf, L. Debut, V. Sanh, J.Chaumond, C. Delangue, A. Moi, P. Cistac, T. Rault, R. Louf, M. Funtowicz, J. Davison, S. Shleifer, P. V. Platen, C. Ma, Y.Jernite, Julien Plu, C. Xu, T. L. Scao, S. Gugger, M.Drame, Q. Lhoest, A., “Rush, Transformers: State-of-the-art Natural Language Processing”., Conference on Empirical Methods in Natural Language Processing: System Demonstrations (pp. 38-45), October 2020.
  • M. Turan, “Derin Öğrenme ile Beklenti Tabanlı Duygu Analizi”, Yüksek Lisans Tezi, Bursa Uludağ Üniversitesi, Fen Bilimleri Enstitüsü, 2022.
  • H. A. Ardaç, P. Erdoğmuş, “Question-Answering System with Text Mining and Deep Networks”. Evolving Systems, 1-13, 2024.
  • İnternet: B. N. Bekar, HuggingFace, https://huggingface.co/AIZinu, 21.7.2024.
There are 28 citations in total.

Details

Primary Language English
Subjects Natural Language Processing
Journal Section Articles
Authors

Metin Bilgin 0000-0002-4216-0542

Bilge Nur Bekar 0009-0002-6511-6242

Publication Date April 30, 2025
Submission Date August 5, 2024
Acceptance Date January 4, 2025
Published in Issue Year 2025 Volume: 18 Issue: 2

Cite

APA Bilgin, M., & Bekar, B. N. (2025). Turkish Cyberbullying Detection with Fine-Tuned Pre-Trained Language Models. Bilişim Teknolojileri Dergisi, 18(2), 115-127. https://doi.org/10.17671/gazibtd.1528238