Otomatik dudak okuma, son yıllarda önemli ölçüde gelişen bir araştırma problemidir. Dudak okuma, bazı durumlarda hem görsel hem de işitsel olarak değerlendirilmektedir. Bir güvenlik kamerasından istenmeyen bir kelimenin tespit edilmesi, görsel dudak okuma problemine bir örnektir. Bu tür salt görüntü içeren verilerin bulunduğu durumlarda, görsel-işitsel veri setleri uygulanamaz. Dolayısıyla, her durumda ses girdisine sahip olamayabiliriz. Telaffuz edilen kelimenin ses girdisini her durumda elde etmek mümkün değildir. Bu çalışmada, yalnızca görüntü içeren yeni bir Türkçe veri seti topladık. Yeni veri seti, kontrolsüz bir ortam olan Youtube videoları kullanılarak üretilmiştir. Bu nedenle, görüntüler ışık, açı, renk ve yüzün kişisel özellikleri gibi çevresel faktörler açısından zorlu parametrelere sahiptir. İnsan yüzündeki bıyık, sakal ve makyaj gibi farklı özelliklere rağmen, veri üzerinde herhangi bir müdahale olmadan Konvolüsyonel Sinir Ağları (CNN) kullanılarak tekil kelimeler ve iki kelimelik ifadeler dahil 10 sınıfta görsel konuşma tanıma problemi geliştirilmiştir. Yalnızca görsel veri kullanılarak önerilen çalışma, derin öğrenme yaklaşımıyla otomatikleştirilmiş görsel konuşma tanıma modelini elde etmiştir. Ayrıca, bu çalışmada yalnızca görsel veri kullanıldığı için hesaplama maliyeti ve kaynak kullanımı çok modlu çalışmalara göre daha azdır. Aynı zamanda Ural-Altay dillerine ait yeni bir veri seti kullanılarak dudak okuma sorununu derin öğrenme algoritmasıyla ele alan bilinen ilk çalışmadır.
– Dudak Okuma Çoklu Sınıf Sınıflandırma Türkçe Dudak Okuma Veri Seti Derin Öğrenme Evrişimli Sinir Ağları Dudak Tespiti
Aselsan-Bites
Automated lip reading is a research problem that has developed considerably in recent 1 years. Lip reading is evaluated both visually and audibly in some cases. Detecting an unwanted word from a security camera is an example of a visual lip reading problem. Audio-visual datasets are not applicable where such image-only data is involved. Therefore, we may not have audio input in all cases. It is not possible to obtain the sound input of the pronounced word in all cases. We collected a new Turkish dataset with only the image in this study. The new dataset is produced using Youtube videos, which is an uncontrolled environment. For this reason, images have difficult parameters in terms of environmental factors such as light, angle, color, and personal characteristics of the face. Despite the different features on the human face such as moustache, beard, and make-up, the visual speech recognition problem was developed on 10 classes including single words and two-word phrases using Convolutional Neural Networks (CNN) without any intervention on the data. The proposed study using only-visual data obtained a model which is automated visual speech recognition with a deep learning approach. In addition, since this study uses only-visual data, the computational cost and resource usage is less than in multi-modal studies. It is also the first known study to address the lip reading problem with a deep learning algorithm using a new dataset belonging to the Ural-Altaic languages.
Lip Reading Multiclass Classification Turkish Lip Reading Dataset Deep Learning Convolutional Neural Networks Lip Detection
Birincil Dil | Türkçe |
---|---|
Konular | Konuşma Tanıma |
Bölüm | Makaleler |
Yazarlar | |
Erken Görünüm Tarihi | 17 Temmuz 2025 |
Yayımlanma Tarihi | 31 Temmuz 2025 |
Gönderilme Tarihi | 3 Mart 2025 |
Kabul Tarihi | 27 Nisan 2025 |
Yayımlandığı Sayı | Yıl 2025 Cilt: 9 Sayı: 1 |