Research Article
BibTex RIS Cite

Madde Yanlılığının Belirlenmesinde Yapay Zekâ Desteği

Year 2025, Volume: 5 Issue: 1, 1 - 9, 30.06.2025

Abstract

Bu araştırmada, yapay zekâ (YZ) araçlarının cinsiyete göre madde yanlılığını belirlemedeki performansının incelenmesi amaçlanmıştır. Araştırmanın verileri, Niğde ilinde 2023-2024 yılında 8.sınıflarda öğrenim gören 5565 öğrenciden elde edilmiştir. Uygulanan İngilizce başarı testi sonucunda öğrencilerin 20 çoktan seçmeli test maddesine verdikleri yanıtlar incelenmiştir. Maddelerin cinsiyete göre DMF içerme durumu; Mantel-Haenszel, delta grafiği, lojistik regresyon, genelleştirilmiş lojistik regresyon, Lord’un χ2 testi, Raju’nun alan testi ve SIBTEST yöntemleri ile test edilmiştir. DMF içerdiği tespit edilen maddelerin, cinsiyete göre yanlı olup olmadığına karar vermek için uzman görüşleri alınmıştır. DMF içeren yedi maddeden üçünün cinsiyete göre yanlılık gösterdiği belirlenmiştir. Son aşamada YZ aracından (ChatGPT-4o) testteki yanlı olan maddeleri belirlemesi ve bu durumu gerekçelendirmesi istenilmiştir. İlk durumda (YZ1), YZ aracına doğrudan maddeler verilmiştir, ikinci durumda (YZ2) ise YZ aracı madde yanlılığı konusunda eğitilmiştir. Karışıklık matrisi kullanılarak gerçekleştirilen analizlere göre; modellerin dengeli doğruluk oranı YZ1 için %38,24, YZ2 için %68,63 olarak hesaplanmıştır. Bu durum, YZ2'nin yanlı olan ve olmayan maddeleri ayırt etmede YZ1'e kıyasla daha başarılı olduğunu göstermektedir. Sonuçlar, YZ ile yanlılık belirleme çalışmalarının etkinliğini artırmada veri çeşitliliğini sağlamanın ve algoritmaların performansını geliştirmeye yönelik düzenlemeler yapmanın önemli olduğunu göstermektedir.

References

  • Bauer, D., Belzak, W., & Cole, V. (2020). Simplifying the assessment of measurement invariance over multiple background variables: Using regularized moderated nonlinear factor analysis to detect differential item functioning. Structural Equation Modeling: A Multidisciplinary Journal, 27(1), 43–55. https://doi.org/10.1080/10705511.2019.1642754
  • Belzak, W. C. (2022). The multidimensionality of measurement bias in high-stakes testing: Using machine learning to evaluate complex sources of differential item functioning. Educational Measurement: Issues and Practice, 42(1), 24–33. https://doi.org/10.1111/emip.12486
  • Bulut, G., & Akyıldız, M. (2024). Yapay Zekâ ile Üretilen Soruların ve Madde Parametrelerinin MST Test Koşullarında Karşılaştırılması. Dijital Teknolojiler ve Eğitim Dergisi, 3(1), 1-12.
  • Camilli, G. & Shepard, A.L. (1994). Methods for identifying biased test items. London: Sage.
  • Clauser, B. E., & Mazor, K. M. (1998). Using Statistical Procedures To Identify Differentially Functioning Test Items. An NCME Instructional Module. Educational Measurement: issues and practice, 17(1), 31-44.
  • Fraenkel, J. R., Wallen, N. E., & Hyun, H. H. (2012). How to design and evaluate research in education (Vol. 7, p. 429). New York: McGraw-hill.
  • Hahn, M. G., Navarro, S. M. B., Valentín, L. D. L. F., & Burgos, D. (2021). A systematic review of the effects of automatic scoring and automatic feedback in educational settings. IEEE Access, 9, 108190-108198.
  • Holland, P. W., & Thayer, D. T. (1986). Differential item functioning and the Mantel‐Haenszel procedure. ETS Research Report Series, 1986(2), i-24.
  • Holland, P. W., & Wainer, H. (Eds.). (1993). Differential item functioning . Hillsdale NJ: Erlbaum.
  • Hoover, J. C. (2022). Using machine learning to identify causes of differential item functioning (Doctoral dissertation, University of Kansas).
  • Kan, A. (2007). Test yansızlığı: H.Ü. yabancı dil muafiyet sınavının cinsiyete ve bölümlere göre DMF analizi. Eurasian Journal of Educational Research, 29, 45-58.
  • Kalaycıoğlu, D. B., & Kelecioğlu, H. (2011). Öğrenci Seçme Sınavı’nın madde yanlılığı açısından incelenmesi. Eğitim ve Bilim, 36(161).
  • Kraus, E. B., Wild, J., & Hilbert, S. (2024). Using Interpretable Machine Learning for Differential Item Functioning Detection in Psychometric Tests. Applied Psychological Measurement, 01466216241238744.
  • Kuhn, M. (2008). Building predictive models in R using the caret package. Journal of statistical software, 28, 1-26.
  • Kumar, V. S., & Boulanger, D. (2021). Automated essay scoring and the deep learning black box: How are rubric scores determined?. International Journal of Artificial Intelligence in Education, 31, 538-584.
  • LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521(7553), 436-444.
  • Martinková, P., & Drabinová, A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. R Journal, 10(2).
  • Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-104). New York, NY: American Council on education and Macmillan.
  • Öğretmen, T., & Doğan, N. (2004). OKÖSYS matematik alt testine ait maddelerin yanlılık analizi.
  • Perkins, K., Gupta, L., & Tammana, R. (1995). Predicting item difficulty in a reading comprehension test with an artificial neural network. Language testing, 12(1), 34-53.
  • Strobl, C., Kopf, J., & Zeileis, A. (2015). Rasch trees: A new method for detecting differential item functioning in the rasch model. Psychometrika, 80(2), 289–316. https://doi.org/10.1007/s11336-013-9388-3
  • Tutz, G., & Schauberger, G. (2015). A penalty approach to differential item functioning in Rasch models. Psychometrika, 80(1), 21–43. https://doi.org/10.1007/s11336-013-9377-6
  • von Davier, M. (2018). Automated item generation with recurrent neural networks. psychometrika, 83(4), 847-857. Wickham, H., Chang, W., & Wickham, M. H. (2016). Package ‘ggplot2’. Create elegant data visualisations using the grammar of graphics. Version, 2(1), 1-189.
  • Yıldırım, H. (2015). 2012 yılı seviye belirleme sınavı matematik alt testinin madde yanlılığı açısından incelenmesi. (Yayınlanmamış yüksek lisans tezi). Gazi Üniversitesi, Ankara.
  • Zumbo, B. D. (1999). A handbook on the theory and methods of differential item functioning (DIF). Ottawa: National Defense Headquarters, 160.
Year 2025, Volume: 5 Issue: 1, 1 - 9, 30.06.2025

Abstract

References

  • Bauer, D., Belzak, W., & Cole, V. (2020). Simplifying the assessment of measurement invariance over multiple background variables: Using regularized moderated nonlinear factor analysis to detect differential item functioning. Structural Equation Modeling: A Multidisciplinary Journal, 27(1), 43–55. https://doi.org/10.1080/10705511.2019.1642754
  • Belzak, W. C. (2022). The multidimensionality of measurement bias in high-stakes testing: Using machine learning to evaluate complex sources of differential item functioning. Educational Measurement: Issues and Practice, 42(1), 24–33. https://doi.org/10.1111/emip.12486
  • Bulut, G., & Akyıldız, M. (2024). Yapay Zekâ ile Üretilen Soruların ve Madde Parametrelerinin MST Test Koşullarında Karşılaştırılması. Dijital Teknolojiler ve Eğitim Dergisi, 3(1), 1-12.
  • Camilli, G. & Shepard, A.L. (1994). Methods for identifying biased test items. London: Sage.
  • Clauser, B. E., & Mazor, K. M. (1998). Using Statistical Procedures To Identify Differentially Functioning Test Items. An NCME Instructional Module. Educational Measurement: issues and practice, 17(1), 31-44.
  • Fraenkel, J. R., Wallen, N. E., & Hyun, H. H. (2012). How to design and evaluate research in education (Vol. 7, p. 429). New York: McGraw-hill.
  • Hahn, M. G., Navarro, S. M. B., Valentín, L. D. L. F., & Burgos, D. (2021). A systematic review of the effects of automatic scoring and automatic feedback in educational settings. IEEE Access, 9, 108190-108198.
  • Holland, P. W., & Thayer, D. T. (1986). Differential item functioning and the Mantel‐Haenszel procedure. ETS Research Report Series, 1986(2), i-24.
  • Holland, P. W., & Wainer, H. (Eds.). (1993). Differential item functioning . Hillsdale NJ: Erlbaum.
  • Hoover, J. C. (2022). Using machine learning to identify causes of differential item functioning (Doctoral dissertation, University of Kansas).
  • Kan, A. (2007). Test yansızlığı: H.Ü. yabancı dil muafiyet sınavının cinsiyete ve bölümlere göre DMF analizi. Eurasian Journal of Educational Research, 29, 45-58.
  • Kalaycıoğlu, D. B., & Kelecioğlu, H. (2011). Öğrenci Seçme Sınavı’nın madde yanlılığı açısından incelenmesi. Eğitim ve Bilim, 36(161).
  • Kraus, E. B., Wild, J., & Hilbert, S. (2024). Using Interpretable Machine Learning for Differential Item Functioning Detection in Psychometric Tests. Applied Psychological Measurement, 01466216241238744.
  • Kuhn, M. (2008). Building predictive models in R using the caret package. Journal of statistical software, 28, 1-26.
  • Kumar, V. S., & Boulanger, D. (2021). Automated essay scoring and the deep learning black box: How are rubric scores determined?. International Journal of Artificial Intelligence in Education, 31, 538-584.
  • LeCun, Y., Bengio, Y., & Hinton, G. (2015). Deep Learning. Nature, 521(7553), 436-444.
  • Martinková, P., & Drabinová, A. (2018). ShinyItemAnalysis for teaching psychometrics and to enforce routine analysis of educational tests. R Journal, 10(2).
  • Messick, S. (1989). Validity. In R. L. Linn (Ed.), Educational measurement (3rd ed., pp. 13-104). New York, NY: American Council on education and Macmillan.
  • Öğretmen, T., & Doğan, N. (2004). OKÖSYS matematik alt testine ait maddelerin yanlılık analizi.
  • Perkins, K., Gupta, L., & Tammana, R. (1995). Predicting item difficulty in a reading comprehension test with an artificial neural network. Language testing, 12(1), 34-53.
  • Strobl, C., Kopf, J., & Zeileis, A. (2015). Rasch trees: A new method for detecting differential item functioning in the rasch model. Psychometrika, 80(2), 289–316. https://doi.org/10.1007/s11336-013-9388-3
  • Tutz, G., & Schauberger, G. (2015). A penalty approach to differential item functioning in Rasch models. Psychometrika, 80(1), 21–43. https://doi.org/10.1007/s11336-013-9377-6
  • von Davier, M. (2018). Automated item generation with recurrent neural networks. psychometrika, 83(4), 847-857. Wickham, H., Chang, W., & Wickham, M. H. (2016). Package ‘ggplot2’. Create elegant data visualisations using the grammar of graphics. Version, 2(1), 1-189.
  • Yıldırım, H. (2015). 2012 yılı seviye belirleme sınavı matematik alt testinin madde yanlılığı açısından incelenmesi. (Yayınlanmamış yüksek lisans tezi). Gazi Üniversitesi, Ankara.
  • Zumbo, B. D. (1999). A handbook on the theory and methods of differential item functioning (DIF). Ottawa: National Defense Headquarters, 160.
There are 25 citations in total.

Details

Primary Language Turkish
Subjects Social and Humanities Education (Excluding Economics, Business and Management)
Journal Section Araştırma Makalesi
Authors

Erdem Boduroğlu

Publication Date June 30, 2025
Submission Date December 31, 2024
Acceptance Date June 30, 2025
Published in Issue Year 2025 Volume: 5 Issue: 1

Cite

APA Boduroğlu, E. (2025). Madde Yanlılığının Belirlenmesinde Yapay Zekâ Desteği. Uluslararası Eğitimde Mükemmellik Arayışı Dergisi (UEMAD), 5(1), 1-9.