Canlı yaşamının devamlılığı ve ekosistem dengesinin sürdürülebilirliği için hayati bir unsur olan su, çevresel ve insan kaynaklı faktörlerin etkisiyle fiziksel ve kimyasal özelliklerinde değişimlere uğrayabilmektedir. Su kalitesinin temel göstergelerinden biri olan askıda katı madde (AKM) konsantrasyonunun doğru bir şekilde tahmin edilmesi, sürdürülebilir su yönetimi açısından kritik öneme sahiptir. Bu çalışmada, Batı Karadeniz Havzası’ndaki Filyos Çayı Alt Havzası’na ait su kalitesi verileri kullanılarak, AKM konsantrasyonunun tahmini için yığma modeli temelli bir yaklaşım önerilmiştir. Modelde, temel model olarak rasgele orman (RO) ve gradyan artırma (GA) algoritmaları, meta-model olarak ise K-en yakın komşu (KNN), çok katmanlı algılayıcı (ÇKA), kategorik artırma (CatBoost), uyarlamalı artırma (AdaBoost) ve Torbalama (Bagging) algoritmaları kullanılmıştır. Model performansı, ortalama karesel hata (MSE), kök ortalama kare hatası (RMSE), ortalama mutlak hata (MAE), ortalama mutlak yüzde hata (MAPE) ve korelasyon katsayısı (R²) gibi metriklerle değerlendirilmiştir. Sonuçlara göre, en yüksek R² değeri (%87) RO-GA+CatBoost modeli tarafından elde edilmiştir. Bu model, diğer kombinasyonlara kıyasla daha düşük hata değerleri (MSE: 143.85, RMSE: 11.99, MAE: 9.03, MAPE: 0.21) ile en iyi tahmin performansını sergilemiştir. Hiperparametre optimizasyonu sürecinde Izgara Arama (Grid Search) ve Rasgele Arama (Randomized Search) yöntemleri kullanılarak modellerin performansı daha da iyileştirilmiştir. Özellikle RO-GA+CatBoost modeli, optimizasyon sonrası R² değerini %89’a çıkararak en yüksek performansı göstermiştir. Bu çalışma, doğru algoritma seçimi ve hiperparametre optimizasyonunun model performansını artırmada kritik bir rol oynadığını ortaya koymuştur. CatBoost ve KNN algoritmaları, uygun hiperparametre optimizasyon teknikleri (örneğin Grid Search veya Randomized Search) ile entegre edildiğinde, modelin tahmin doğruluğu üzerinde anlamlı bir iyileşme sağlamaktadır. Gerçekleştirilen optimizasyon süreçleri, modelin karar sınırlarını veri setinin yapısına daha iyi uyarlamasına olanak tanıyarak genelleme performansını artırmakta ve aşırı öğrenme riskini azaltmaktadır. Elde edilen bulgular, benzer regresyon problemlerinde algoritma seçimi ve optimizasyon adımlarının titizlikle planlanması gerektiğini ortaya koymaktadır.
Askıda katı madde (AKM) hiperparametre optimizasyonu makine öğrenmesi regresyon analizi su kalitesi
Water, a vital element for the survival of life and sustainability of ecosystem balance, can undergo changes in its physical and chemical properties under the influence of environmental and anthropogenic factors. Accurate estimation of suspended solids (SSM) concentration, one of the basic indicators of water quality, is of critical importance for sustainable water management. In this study, a stacking model-based approach is proposed for the estimation of SSM concentration using water quality data from the Filyos Stream Sub-basin in the Western Black Sea Basin. In the model, random forest (RF) and gradient boosting (GB) algorithms are used as base models, and K-nearest neighbor (KNN), multilayer perceptron (MLP), categorical boosting (CatBoost), adaptive boosting (AdaBoost), and Bagging algorithms are used as meta-models. Model performance was evaluated with metrics such as mean square error (MSE), root mean square error (RMSE), mean absolute error (MAE), mean absolute percentage error (MAPE), and correlation coefficient (R²). According to the results, the highest R² value (87%) was obtained by the RF-GB+CatBoost model. This model exhibited the best prediction performance with lower error values (MSE: 143.85, RMSE: 11.99, MAE: 9.03, MAPE: 0.21) compared to other combinations. The performance of the models was further improved by using Grid Search and Randomized Search methods in the hyperparameter optimization process. In particular, the RF-GB+CatBoost model showed the highest performance by increasing the R² value to 89% after optimization. This study revealed that the correct algorithm selection and hyperparameter optimization play a critical role in improving model performance. CatBoost and KNN algorithms, integrated with appropriate hyperparameter optimisation techniques (e.g. Grid Search or Randomised Search), provide a significant improvement on the prediction accuracy of the model. The optimisation processes performed allow the model to better adapt its decision boundaries to the structure of the dataset, improving generalisation performance and reducing the risk of overlearning. The findings suggest that algorithm selection and optimisation steps should be carefully planned for similar regression problems.
Suspended solids (SS) hyperparameter optimization machine learning regression analysis water quality
Birincil Dil | Türkçe |
---|---|
Konular | Su Kaynakları Mühendisliği, İnşaat Mühendisliği (Diğer) |
Bölüm | Araştırma Makaleleri |
Yazarlar | |
Yayımlanma Tarihi | 21 Temmuz 2025 |
Gönderilme Tarihi | 11 Mart 2025 |
Kabul Tarihi | 20 Mayıs 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 15 Sayı: 2 |