Veri Biliminde PCA ve LDA Kavramları

--

Principal Component Analysis (PCA), tahminleme, gen ifadesi verilerinin analizi ve daha birçok uygulamada kullanılan popüler ve kullanışlı bir doğrusal dönüşüm tekniğidir. Bir PCA analizinin ana amacı,değişkenler arasındaki korelasyonu tespit etmeyi amaçlamaktadır. Çok boyutlu verilere doğru açıdan bakarak genellikle verideki ilişkiler açıklanabilir. PCA’nın amacı bu “doğru açıyı” bulmaktadır.PCA analizinin işleyiş sırası şu şekildedir;

-Verilerin Boyutunu Azaltma

-Tahminleme Yapma

-Veriyi Görüntüleme

Özetle, PCA şu şekildedir: Yüksek boyutlu verilerde maksimum varyansı bulmak ve bilgiyi korurken daha küçük boyutlara indirgemektir.

PCA’ın kullanıldığı yerler oldukça önemli yerler olup veri bilimi için son derece kullanışlı bir algoritmadır.

PCA’ın kullanıldığı alanlar sırasıyla;

  • Gürültü Filtreleme

Verisetinde Anomaly,Outlier olan verileri PCA ile ortaya çıkarılması.

  • Görselleştirme

Boyut indirgendikten sonra rahatça görselleştirme yapılabilir.

  • Öznitelik Çıkarımı

Veriler üzerinden yeni öznitelik çıkarımı yapılabilir.

  • Öznitelik Eleme,Dönüştürme

Fazla olan özelliklerin çıkarılması.

Örnek vermek gerekirse 100.000 özellikli bir verisetinde çalışıyorsunuz ve PCA kullanma kararı aldınız.PCA ile boyut indirgeyerek 20.000 özelliğe kadar indirgediniz,bu noktada PCA size verilerinizin kaybolmama garantisini ne yazikki vermez.

Örnekte görüldüğü üzere 3 boyutlu olan bir verimiz 2 boyuta indirgenmiş. 3.boyutta öyle bir nokta vardır ki veri 2 boyuta dönüştürüldüğünde noktalar üst üste gelebilir,bu da bizim için istenmeyen durum olur ki bunun da adına veri kaybı denir.

Eigen Value(Öz Değer)-Eigen Vector(Öz Vektör)

PCA’in bilinmesi için Eigen Value ve Eigen Vector kavramlarının bilinmesi gerekmektedir. Nedir bu kavramlar???

Eigen Vector: Bir yöneyin (vector) bir dönüşüme (transformation) uğramasından sonra boyutunun değişmesinden bağımsız olarak hâlâ yönü aynı kalıyorsa bu dönüşüm yöneyine (vector) öz yöney (eigen vector) ismi verilir.

Eigen Value: Bu yön değiştirmeyen ancak uzunluk (büyüklük) değiştiren öz yöneyin yapmış olduğu değişim aslında sayısal bir uzunluk olarak hesaplanabilir işte bu hesaplanan sayısal değere (sabite, scalar) öz değer (eigen value) ismi verilir.

Örnekte görüldüğü gibi 2 1 1 2 matrisimiz 3 -3 matrisiyle çarpılıyor,sonuç olarak 3 -3 matrisi çıkıyor.Sonucumuz ve çarpmış olduğumuz değer yani 3 -3 değerleri aynı değerler ve biz bu değer 1 * 3 -3 şeklinde gösterebiliyoruz. Bu durumda burada ki 1 değeri bizim eigen value değerimiz oluyor. 3 -3 ise eigen vectorümüz oluyor.

Eğer bazı özdeğerler diğerlerine göre önemli ölçüde daha büyük bir büyüklüğe sahipse, “daha ​​az bilgi verici” özdeğerleri bırakarak, daha küçük boyutlu bir verisetinin kullanımı makul olarak düşünülebilir.

Bir kovaryans (veya korelasyon) matrisinin özvektörleri ve özdeğerleri, bir PCA’nın temelini oluşturur.

KOVARYANS: Kovaryans iki değişkenin birlikte ne kadar değiştiklerinin ölçüsüdür.

Özdeğerler, yeni özellik eksenleri boyunca verinin varyansını açıklar.

PCA ALGORİTMASI

  • İndirgenmek istenen boyutun karar verilmesi-Örnek k boyutu olsun
  • Verinin standartlaştırılması
  • Öz değerlerin ve Öz vektörlerin elde edilmesi
  • Seçilen k özdeğerden W projeksiyon matrisinin oluşturulması
  • Orijinal veri kümesinin W projeksiyon matrisi kullanılarak dönüştürülmesi ve k boyutlu Y uzayının elde edilmesi.

Linear Discriminant Analysis(LDA)

Linear Discriminant Analysis (LDA) machine learning uygulamaları için preprocessing aşamasında boyut azaltma tekniği olarak kullanılır. Amaç, overfittingi önlemek ve aynı zamanda hesaplama maliyetlerini azaltmaktır.

LDA, genel olarak PCA’a benzesede LDA’in çalışma mantığında Sınıflar arasındaki uzaklığı maksimize etmek vardır.PCA’da sınıf kavramı yoktur PCA sadece data pointler arası mesafeyi maksimize etmeye çalışır.

Özetle LDA amacı sınıflar arasında ki farkı maksimize ederek veri setinde boyut indirgemektir.

Bu görsel sanırım PCA ile LDA arasındaki farkı en iyi şekilde anlatıyor.

LDA İçinde PCA’da olduğu gibi boyut indirgeme için k değerinden,eigen vector,eigen value değerlerinden bahsedebiliriz.

LDA ALGORİTMASI

  • Veri kümesinde farklı sınıflar için d boyutlu ortalama vektörlerin hesaplanması
  • Scatter matrisin hesaplanması
  • Scatter matris için Öz Değer ve Öz Vektörlerin hesaplanması
  • Öz değerleri büyükten küçüğe sıralanması ve büyük değerleri seçilmesi
  • Orijinal veri kümesinin W projeksiyon matrisi kullanılarak dönüştürülmesi ve k boyutlu Y uzayının elde edilmesi.

PCA ve LDA Arasındaki Farklar

  • PCA gözetimsiz öğrenme algoritmasıdır. LDA gözetimli öğrenme algoritmasıdır.
  • PCA data pointler arasındaki mesafeyi maksimize etmeye çalışır.LDA sınıflar arasındaki mesafeyi maksimize etmeye çalışır.
  • PCA kümeleme problemlerinde kullanılırken,LDA sınıflandırma problemlerinde kullanılır.
  • PCA’da sınıf kavramı yoktur.Verilerdeki özellik kavramını kaldırır.Tüm veriler tek bir tipmiş gibi davranılır.

Referans:

http://medya.beu.edu.tr

http://bilgisayarkavramlari.sadievrenseker.com/

Bugünlük yazım bu kadar arkadaşlar.Öğrendikçe daha nicelerini paylaşacağım. SEYGİYLE kalın…

--

--