Geliştirilmiş yapay alg algoritmasının hiyerarşik olmayan kümeleme problemlerine uygulanması
Tarih
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
Özet
Optimizasyon, belirli şartlar ve kısıtlar çerçevesinde bir problem için elde edilen en iyi çözüm olarak tanımlanmaktadır. Optimizasyon için geliştirilen algoritmalar, mevcut bilgileri mümkün olduğu kadar en iyi düzeyde kullanmayı hedeflemektedir. Geçmişten günümüze kadar araştırmacılar tarafından birçok optimizasyon algoritması geliştirilmiştir. Geliştirilen bu optimizasyon algoritmaları genel olarak doğada bulunan canlıların sosyal veya bireysel davranışlarına göre tasarlanmıştır. Optimizasyon algoritmaları mühendislik, tıp, endüstri, bankacılık gibi birçok sektörde başarılı bir şekilde kullanılmaktadır. Bununla beraber bilgisayar bilimleri çerçevesinde veri madenciliği alanında optimizasyon algoritmalarının kullanımı yaygınlaşmaya başlamıştır. Veri madenciliği uygulamalarından bir tanesi olan kümeleme birçok alanda sıkça kullanılmaktadır. Kümeleme probleminde en kritik noktalaradan bir tanesi kümelenen verilerin en iyi küme merkezlerinin belirlenmesidir. Bu problemin üstesinden gelmek amacıyla geleneksel birçok yaklaşım ve teknik geliştirilmiş ve kullanılmıştır. Son zamanlarda, kümeleme problemine çözüm bulmak amacıyla optimizasyon algoritmalarına başvurulmaya başlanmıştır. Bu tez çalışmasında, kümeleme probleminin çözümü için güncel optimizasyon algoritmalarından biri olan yapay alg algoritması kullanılmıştır. Algoritmanın yerel minimuma yakalanma sorununu çözmek ve algoritmanın performansını arttırmak amacıyla Levy uçuşu yaklaşımı kullanılmıştır. Tez çalışmasında, açık kaynak şekilde veri hizmeti sunan UCI veri ambarından alınan 15 adet veri seti (appendicitis, banknote, blobs, circles, diagnosis_II, flame, hear, ionosphere, iris2d, jain, liver, sonar, very-density, vertebral3 ve wine) üzerinde Levy uçuşu destekli yapay alg algoritması ile hiyerarşik olmayan kümeleme yapılmıştır. Önerilen algoritmanın performansını değerlendirmek amacıyla her veri seti için küme merkezleri ve veriler arasındaki toplam karesel uzaklık değerleri hesaplanmıştır. Bu hata değeri algoritma için uygunluk fonksiyonu olarak kullanılmıştır. Yapılan çalışmada önerilen algoritmanın performansı, yapay alg, karınca aslanı optimizasyonu, difrensiyel evrim, güve alev optimizasyonu, parçacık sürü optimizasyonu, ağaç tohumu ve balina optimizasyon algoritmalarının performansı ile karşılaştırılmıştır. Elde edilen deneysel sonuçlar önerilen algoritmanın kümeleme performansının diğer algoritmaların performansından daha iyi olduğunu göstermiştir.
Optimization is defined as the best solution obtained for a problem within certain conditions and constraints. Algorithms developed for optimization aim to use the existing information at the best possible level. Many optimization algorithms have been developed by researchers from past to present. These optimization algorithms are generally designed according to the social or individual behaviors of living beings in nature. Optimization algorithms are successfully used in many sectors such as engineering, medicine, industry, and banking. However, the use of optimization algorithms in the field of data mining within the framework of computer science has begun to become widespread. Clustering, one of the data mining applications, is frequently used in many areas. One of the most critical points in the clustering problem is the determination of the best cluster centers of the clustered data. Many traditional approaches and techniques have been developed and used to overcome this problem. Recently, optimization algorithms have been used to find a solution to the clustering problem. In this thesis, one of the current optimization algorithms, the artificial algae algorithm, was used to solve the clustering problem. The Levy flight approach was used to solve the problem of the algorithm being caught in the local minimum and to increase the performance of the algorithm. In the thesis study, non-hierarchical clustering was performed with Levy flight supported artificial algae algorithm on 15 data sets (appendicitis, banknote, blobs, circles, diagnosis_II, flame, hear, ionosphere, iris2d, jain, liver, sonar, very-density, vertebral3 and wine) taken from UCI data warehouse which provides data service in open source. In order to evaluate the performance of the proposed algorithm, the total squared distance values between cluster centers and data were calculated for each data set. This error value was used as the fitness function for the algorithms. In the study, the performance of the proposed algorithm was compared with the performance of artificial algae, ant lion optimization, differential evolution, moth flame optimization, particle swarm optimization, tree seed and whale optimization algorithms. The experimental results obtained showed that the clustering performance of the proposed algorithm is better than the performance of other algorithms.












