Belge benzerliği sonuçlarının nsga-ıı ile çok amaçlı optimizasyonu
Yükleniyor...
Dosyalar
Tarih
2018
Yazarlar
Dergi Başlığı
Dergi ISSN
Cilt Başlığı
Yayıncı
Erişim Hakkı
info:eu-repo/semantics/openAccess
Özet
Sınıflandırma algoritmalarının başarı performanslarının artırımı, veri madenciliğinin önemli amaçları arasındadır. Bu tez çalışmasında, veri madenciliği sınıflandırma başarısının sezgisel yöntemlerle arttırılması incelenmiştir. Sınıflandırmada kullanılan eğitim veri seti hem benzerlik hesap sonuçları yönünden hem de sınıflandırma yeteneği yönünden optimize edilmiştir. Aynı sınıfta olan vektörlerin benzerlik sonuçlarının maksimize edilmesi, aynı zamanda farklı sınıftaki vektörlerin benzerlik sonuçlarının minimize edilmesi amaçlanmıştır. Bu çelişen iki durum için çok amaçlı sezgisel yöntemlerden olan, Sıralı Seçkin Bastırılamayan Genetik Algoritma (NSGA II) kullanılmıştır. Hatalı sınıflandırma oranlarının, optimizasyonun her iterasyonunda sıfıra daha çok yaklaştırılması hedeflenmiştir. Bu çalışmada veri madenciliğinin tüm aşamalarının sırayla gerçekleştirilmesine özen gösterilmiştir. Ham veriler işlenerek öznitelikler çıkarılmıştır. Boyut azaltma işlemleri için ise Temel Bileşen Analizi (PCA) kullanılmıştır. Veri setleri üzerinde K En Yakın Komşu Algoritması (KNN) kullanılarak yalın haldeki sınıflandırma başarıları ile optimizasyon sonrası sınıflandırma başarıları karşılaştırılmıştır. Optimizasyonun, eğitim veri setinin sınıflandırma yeteneğini arttırdığı görülmüştür. Optimize edilmiş veriler, eğitim kümesi olarak kullanıldığında sınıflandırma başarısında artış gözlemlenmiştir.