3B semantik bölütleme, üç boyutlu uzaydaki her noktaya anlamsal etiketler atama sürecidir ve otonom sürüş, robotik, tıbbi görüntüleme ve kentsel haritalama dahil olmak üzere çok sayıda uygulama için kritik öneme sahiptir. Önemli ilerlemeye rağmen, veri dengesizliği, ölçeklenebilirlik ve gerçek zamanlı işleme kısıtlamaları gibi zorluklar devam etmektedir. Bu çalışma, ShapeNetCore veri setini kullanan Tiny, Medium ve Large olarak PointNet’ten esinlenen modelleri karşılaştırmak suretiyle gerçek zamanlı işleme sorununu ele almaktadır. Modeller, geometrik dönüşümlere karşı gürbüzlüğü korumak üzere poz normalizasyonu için T-Net modülünü içerir. Uçak, Motosiklet ve Araba sınıfları için ayrı modeller eğitilerek sınıf-özel segmentasyon çalışılmış ve her sınıf için özel optimizasyon değerlendirilmiştir. Küme büyüklüğünün 16 olduğu ve 1×10^(-3) başlangıç öğrenme oranıyla 40 epok boyunca eğitilen 512 örneklenmiş noktaya sahip Tiny modeli, %86,18 ortalama eğitim doğruluğu ve %83,50 ortalama doğrulama doğruluğu elde etti ve test hızı ve yüksek doğruluğu nedeniyle gerçek zamanlı uygulamalar için ideal olduğu değerlendirilmiştir.
3D semantic segmentation, the process of assigning semantic labels to every point in a 3D space, is critical for numerous applications, including autonomous driving, robotics, medical imaging, and urban mapping. Despite significant progress, challenges such as data imbalance, scalability, and real-time processing constraints persist. This study addresses the real-time processing issue by comparing Tiny, Medium, and Large PointNet-inspired models utilizing the ShapeNetCore dataset. The models incorporate the T-Net module for pose normalization to maintain robustness against geometric transformations. Class-specific segmentation is explored by training separate models for the Airplane, Motorbike, and Car classes, allowing custom optimizations for each class. The Tiny model with 512 sampled points where the batch size is 16 and trained for 40 epochs with a starting learning rate of 1×10^(-3) achieved an average training accuracy of 86.18% and an average validation accuracy of 83.50%, making it optimal for real-time applications due to its fast inference speed and high accuracy.
Primary Language | English |
---|---|
Subjects | Image Processing |
Journal Section | TJST |
Authors | |
Publication Date | March 27, 2025 |
Submission Date | February 11, 2025 |
Acceptance Date | March 18, 2025 |
Published in Issue | Year 2025 Volume: 20 Issue: 1 |