Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: AİNUS
dc.authorid | 0000-0003-1729-3594 | |
dc.contributor.advisor | Acılar, Ayşe Merve | |
dc.contributor.author | Gümüşlü, Kübranur | |
dc.date.accessioned | 2024-09-23T06:09:24Z | |
dc.date.available | 2024-09-23T06:09:24Z | |
dc.date.issued | 2024 | |
dc.date.submitted | 2024 | |
dc.department | NEÜ, Fen Bilimleri Enstitüsü, Bilgisayar Mühendisliği Anabilim Dalı | |
dc.description | Yüksek Lisans Tezi | |
dc.description.abstract | Verilerden elde edilen bilgilerin, günümüzde yaygınlaşan çalışmalar üzerinde temel bir rol oynamaktadır. Bu bağlamda, veri setleri üzerinde çeşitli işlemlerin uygulanması ve sağlıklı modellerin oluşturulması önemli bir araştırma alanıdır. Günümüzdeki gerçek dünya verilerindeki önemli sorunlardan biri dengesiz veri setleridir ve sınıf etiketlerinin örnek uzayı içinde dengesiz bir şekilde dağıldığı veri kümeleri olarak tanımlanır. Bu tez çalışmasında, dengesiz veri setlerinin sınıflandırma başarını etkileyen dengesizlik sorununu çözmek için alternatif bir yöntem önerilmiştir. Literatürde veri kümelerindeki dengesizliği ortadan kaldırmak için uygulanan, temel yöntemlerden biri olan Az Örnekleme (Undersampling) tekniği yol haritası olarak seçilmiştir. Az örnekleme işlemi, çoğunluk sınıfına uygulanan işlemler sonucu veri kümesini dengeli hale getirmeyi esas alır. Bu tez çalışmasında önerilen yöntem, az örnekleme işlemini yapay bağışıklık algoritmalarından aiNet algoritması ile yapmaktadır. aiNet algoritmasının veriyi daha düşük boyutlu bir küme ile temsil etme yeteneği mevcuttur. Veri setindeki dengesizlik oranı (Imbalanced Ratio) ile aiNet algoritmasının baskılama eşiği ilişkilendirilmiştir. aiNet algoritmasının baskılama eşiği hiper parametresinin, veri kümesinin dengesizlik oranına göre adaptif değişmesi sağlanarak yeni bir az örnekleme yöntemi önerilmiştir. Önerilen yönteme aiNUS (aiNet tabanlı az örnekleme–aiNet based Under Sampling) ismi verilmiştir. aiNUS ile, veri setindeki çoğunluk sınıfının yapısal organizasyonu temsil edebilen bir hafıza matrisi oluşturulmuştur. Önerilen yöntem, dengesizlik oranı 1,5 ile 9 arasındaki on adet ve 9'dan büyük yedi adet olmak üzere toplam 17 veri setine uygulanmıştır. Uygulamadan önce veri setleri normalize edilmiştir. 5 kat çapraz doğrulama kullanılmıştır. Eğitim setleri aiNUS ile indirgenmiştir. Sınıflandırıcı olarak C4.5 karar ağacı kullanılmıştır. Test kümelerine ait ortalama AUC başarı ölçütleri hesaplanmıştır. Elde edilen değerler literatürde kabul görmüş 6 farklı (C4.5, RUS1, BAG, C21, UB1, EASY) yöntem ile tartışılmıştır. Test kümeleri için deneysel çalışmada kullanılan algoritmalara göre elde edilen AUC başarı ölçütlerinin ortalamaları incelenmiş, önerilen AiNUS az örnekleme yönteminin 0,8976 ile en yüksek değeri elde ettiği görülmüştür. Herhangi bir dengeleme yöntemi kullanılmadan direkt C4.5 uygulandığı durum için ortalama AUC değeri 0.8677 olarak hesaplanması önerilen yöntemin etkinliğini göstermektedir. Test kümesi sınıflandırma sonuçlarına ait başarı sıra (rank) değerleri incelendiğinde ise özellikle yüksek IR değerine sahip veri kümeleri için AiNUS ilk 3 içinde yer aldığı ve 2.94 en küçük ortalama başarı sırası ile önerilen AiNUS yönteminin birinci olduğu görülmüştür. Sonuç olarak, önerilen AiNUS yöntemin başarılı, kabul edilebilir, rekabetçi ve istikrarlı sonuçlar ürettiği deneysel çalışma bulgularından gözlemlenmiştir. | |
dc.description.abstract | Data plays a fundamental role in modern studies. Applying various operations on data sets and creating healthy models is an important research area. One major issue with real-world data is unbalanced data sets, where class labels are unevenly distributed within the sample space. This thesis proposes an alternative method to address the issue of classification success in unbalanced data sets. The chosen approach is the undersampling technique, a basic method commonly used in the literature to eliminate data set imbalance. The undersampling process balances the data set by applying operations to the majority class. The undersampling process in this thesis is performed using the aiNet algorithm, which is one of the artificial immunity algorithms. The aiNet algorithm can represent data with a lower dimensional cluster. The imbalance ratio (Imbalanced Ratio) in the data set is associated with the suppression threshold of the aiNet algorithm. The aiNUS (aiNet based Under Sampling) method proposes a new undersampling approach by adapting the suppression threshold hyperparameter of the aiNet algorithm to the dataset's imbalance rate. This method involves creating a memory matrix that represents the structural organization of the majority class in the dataset. The proposed method was applied to a total of 17 datasets. Ten of these had imbalance ratios between 1.5 and 9, while the remaining seven had imbalance ratios greater than 9. Prior to application, the datasets were normalized. 5-fold cross-validation was employed, and training sets were reduced with aiNUS. A C4.5 decision tree was used as a classifier. The success criteria for the test sets were calculated as the average AUC. The obtained values were compared with those obtained using six different methods (C4.5, RUS1, BAG, C21, UB1, EASY) accepted in the literature. The study examined the averages of the AUC success criteria obtained from the algorithms used in the experiment for the test sets. The proposed AiNUS undersampling method achieved the highest value with 0.8976. The average AUC value was calculated as 0.8677 when C4.5 was applied directly without using any balancing method, demonstrating the effectiveness of the proposed method. Upon examining the rank values of the test set classification results, it was found that AiNUS ranked among the top 3, particularly for data sets with high IR values. The proposed AiNUS method achieved the lowest average success rank of 2.94, indicating its success, competitiveness, and stability. These experimental findings demonstrate that the proposed AiNUS method produces successful and acceptable results. | |
dc.identifier.citation | Gümüşlü, K. (2024). Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: AİNUS. (Yayımlanmamış yüksek lisans tezi). Necmettin Erbakan Üniversitesi, Fen Bilimleri Enstitüsü Bilgisayar Mühendisliği Anabilim Dalı, Konya. | |
dc.identifier.uri | https://hdl.handle.net/20.500.12452/18755 | |
dc.language.iso | tr | |
dc.publisher | Necmettin Erbakan Üniversitesi, Fen Bilimleri Enstitüsü | |
dc.relation.publicationcategory | Tez | |
dc.rights | info:eu-repo/semantics/openAccess | |
dc.subject | aiNet Algoritması | |
dc.subject | Az Örnekleme | |
dc.subject | Dengesiz Veri Seti | |
dc.subject | Sınıflandırma | |
dc.subject | Yapay Bağışıklık Sistemi | |
dc.subject | aiNet Algorithm | |
dc.subject | Artifical Immune System | |
dc.subject | Imbalanced Dataset | |
dc.subject | Classification | |
dc.subject | Undersampling | |
dc.title | Dengesiz sınıflandırma problemleri için aiNet algoritması tabanlı yeni bir az örnekleme yöntemi: AİNUS | |
dc.title.alternative | AiNet algorithm-based undersampling method for imbalanced classification problems: AINUS | |
dc.type | Master Thesis |