Tehnik Reduksi Data Menggunakan Principal Component Analysis

Reduksi data adalah proses analisis untuk memilih, memusatkan perhatian, meyederhanakan, mengabstraksikan serta mentransformasikan data yang muncul dari catatan-catatan lapangan.  Mereduksi data berarti membuat rangkuman, memilih hal-hal pokok, memfokuskan pada hal-hal penting, mencari tema dan pola, serta membuang yang dianggap tidak perlu. Didalam Gudang data terdapat Terabyte data yang ukurannya relatif sangat besar sehingg analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk dijalankan pada data set komplit (tak efisien).

Reduksi data berarti : Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama)

Tehnik Reduksi data

Ada banyak metode data mining yang dapat bekerja dengan baik pada data berdimensi rendah, sedangkan set data dalam data mining umum nya berdimensi tinggi yang memiliki banyak fitur sehingga selain di perlukan pemrosesan awal seperti binerisasi dan aggregasi, reduksi dimensi data juga penting dilakukan. jika kita mengurangi dimensionalitas data secara langsung maka kemungkinan ada karakteristik data yang hilang bisa saja fitur yang di buang adalah termasuk fitur yang berpengaruh.

Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk menangkap karakteristik data dengan memetakan set data dari dimensi semula ke dimensi lain yang relatif rendah. Pemetaan ini menghasilkan prinsipal componen yang kemudian dapat diambil komponen atau fitur dari dimensi baru yang mempunyai pengaruh yang besar pada set data dan membuang data yang tidak berpengaruh. salah satu metode yang sudah digunakan secara luas adalah Principal Component Analysis

Principal Component Analysis(PCA)

Metode ini melakukan pemetaan/tranformasi set data dari dimensi lama kedimensi yang baru dengan memanfaatkan tehnik Aljabar Linier. PCA memerlukan masukan data yang mempunyai sifat zero-mean pada setiap fitur nya. sifat zero-mean didapat dengan mengurangkan semua nilai dengan nilai rata-rata nya. Set data X dengan dimensi MxN dimana M adalah jumlah data dan N adalah jumlah Fitur, akan tampak seperti berikut :

Matrix

Untuk fitur ke-j, semua nilai pada kolom tersebut dikurangi dengan nilai rata-rata nya, diformulasikan dengan.

covariance-edrianhadinatai=1,2, … , M dan j adalah kolom ke-j

Selanjutnya dilakukan perhitungan matrix kovarian dari matrix X, yaitu Cx. formula yang digunakan adalah dot product untuk setiap fitur nya.

MatrixCovarian-edrianhadinataN adalah Jumlah Fitur dan XT adalah Matrix Transpose dari X

Sifat-sifat Cx :

1.Cx adalah matrix simetris bujur sangkar berukuran NxN
2.Bagian Diagonal Utama (dari kiri atas ke bawah) adalah nilai varian masing-masing fitur sesuai index kolom nya.
3.Bagian selain diagonal utama adalah kovarian diantara pasangan dua fitur yang berkesesuaian.
Matrix Cx Menangkap kovarian diantara semua pasangan yang mungkin dari fitur data set data matrix x.
Nilai kovarian merefleksikan noise dan redudansi pada fitur
Tujuan PCA :
1.Meminimalkan redudansi yang di ukur oleh nilai jarak dari kovarian
2.Memaksimalkan nilai keluaran pemetaan, diukur dengan varian

Jika Y adalah matrix set data hasil pemetaan dan Cy adalah matrix covarian dari Y. maka :

  1. Semuan elemen selain diagonal Utama Haruslah nol, maka Cy harus matrix diagonal(Cy Matrix terkorelasi).
  2. Peletakan dimensi dalam Y dari kiri ke kanan di urutkan menurun.
Cara yang umum digunakan adalah dengan mencari Eigen Value dan Eigen Vector

eigenVectordanValue

dengan mencari matrix ortonormal P dimana Y=PX dan Cy =(1/M)*YYT adalah matrix diagonal, dan kolom dari P adalah komponen utama dari X, Persamaan Cy Bisa di jabarkan :
penjabaran-matrixCy
Dengan mensubstidusikan persamaan tersebut kita mendapatkan persamaan Cy berdimensi NxN :
CySetiap Baris P adalah eigenvektor Cx
Di ambil dari buku :
Prasetyo, Eko. 2012. “Data Mining Konsep dan Aplikasi Menggunakan MATLAB”. Yogyakarta. C.V. Andi Offset. ISBN. 978-979-29-3282-9.

Satu komentar di “Tehnik Reduksi Data Menggunakan Principal Component Analysis

Tinggalkan komentar