Bu çalışma, Homo sapiens genomunda promoter ve non-promoter DNA dizilerinin ayrımını sağlamak amacıyla DNA2Vec tabanlı gömülü temsiller ve UNK karakter duyarlılığı ile güçlendirilmiş derin sinir ağı (DNN) mimarisini bir araya getiren hibrit bir sınıflandırma yaklaşımı önermektedir. Model, bilinmeyen veya düşük güvenilirlikteki k-mer’leri özel olarak başlatılan UNK vektörü ile temsil ederek bağlamsal bilgi kaybını önlemekte ve genelleme kapasitesini artırmaktadır. Veri seti, eşit sayıda promoter ve non-promoter diziden oluşturulmuş, değerlendirmede stratified 5-fold çapraz doğrulama uygulanmıştır. Optimize edilen model; test setinde %85.03 doğruluk, 0.8786 kesinlik, 0.8128 duyarlılık, 0.8444 F1 skoru ve 0.9376 ROC-AUC başarısı elde etmiş ve insan genomu üzerinde yapılan çalışmalarda literatürdeki pek çok karmaşık modele kıyasla daha iyi veya benzer sonuçlar göstermiştir. Sonuçlar, önerilen mimarinin güçlü, yorumlanabilir ve hesaplama açısından verimli bir alternatif sunduğunu ve motif-bağımsız öğrenme yeteneğiyle biyoinformatik uygulamalarda pratik olarak kullanılabileceğini göstermektedir. Gelecek çalışmalarda türler arası genelleme ve Transformer gibi dikkat tabanlı modellerle entegrasyonun araştırılması önerilmektedir.
This study proposes a new hybrid model combining DNA2Vec-based embedded representations with UNK character support and a deep neural network (DNN) architecture for the classification of promoter and non-promoter DNA sequences belonging to the Homo sapiens genome. The model's objective is twofold: first, to minimize the loss of contextual information, and second, to enhance the generalization performance by representing unknown or low-confidence k-mer sequences with an UNK vector. The model, which was structured with a GELU activation function and an AdamW optimization algorithm, achieved strong and balanced results, including 85.03% accuracy, 0.9376 ROC-AUC, and 0.8444 F1 score, when evaluated using a stratified 5-fold cross-validation method. The findings indicate that the proposed structure provides a more straightforward yet effective approach in comparison to the more complex models documented in the extant literature. Furthermore, this architecture provides pragmatic and comprehensible solutions in bioinformatics applications, particularly since it facilitates motif-independent learning. Future work should address the generalization capacity be increased across species and that the integration with Transformer-based models be evaluated in future studies.
Primary Language | English |
---|---|
Subjects | Data Engineering and Data Science |
Journal Section | Research Articles |
Authors | |
Publication Date | June 30, 2025 |
Submission Date | June 4, 2025 |
Acceptance Date | June 16, 2025 |
Published in Issue | Year 2025 Volume: 3 Issue: 1 |