Reduksi data adalah proses analisis untuk memilih, memusatkan perhatian, meyederhanakan, mengabstraksikan serta mentransformasikan data yang muncul dari catatan-catatan lapangan. Mereduksi data berarti membuat rangkuman, memilih hal-hal pokok, memfokuskan pada hal-hal penting, mencari tema dan pola, serta membuang yang dianggap tidak perlu. Didalam Gudang data terdapat Terabyte data yang ukurannya relatif sangat besar sehingg analisis/menambang data kompleks bisa membutuhkan waktu sangat lama untuk dijalankan pada data set komplit (tak efisien).
Reduksi data berarti : Mengurangi ukuran data set tetapi menghasilkan hasil analitis yang sama (hampir sama)
Tehnik Reduksi data
Ada banyak metode data mining yang dapat bekerja dengan baik pada data berdimensi rendah, sedangkan set data dalam data mining umum nya berdimensi tinggi yang memiliki banyak fitur sehingga selain di perlukan pemrosesan awal seperti binerisasi dan aggregasi, reduksi dimensi data juga penting dilakukan. jika kita mengurangi dimensionalitas data secara langsung maka kemungkinan ada karakteristik data yang hilang bisa saja fitur yang di buang adalah termasuk fitur yang berpengaruh.
Metode reduksi dimensionalitas data bekerja dengan cara tertentu untuk menangkap karakteristik data dengan memetakan set data dari dimensi semula ke dimensi lain yang relatif rendah. Pemetaan ini menghasilkan prinsipal componen yang kemudian dapat diambil komponen atau fitur dari dimensi baru yang mempunyai pengaruh yang besar pada set data dan membuang data yang tidak berpengaruh. salah satu metode yang sudah digunakan secara luas adalah Principal Component Analysis
Principal Component Analysis(PCA)
Metode ini melakukan pemetaan/tranformasi set data dari dimensi lama kedimensi yang baru dengan memanfaatkan tehnik Aljabar Linier. PCA memerlukan masukan data yang mempunyai sifat zero-mean pada setiap fitur nya. sifat zero-mean didapat dengan mengurangkan semua nilai dengan nilai rata-rata nya. Set data X dengan dimensi MxN dimana M adalah jumlah data dan N adalah jumlah Fitur, akan tampak seperti berikut :
Untuk fitur ke-j, semua nilai pada kolom tersebut dikurangi dengan nilai rata-rata nya, diformulasikan dengan.
i=1,2, … , M dan j adalah kolom ke-j
Selanjutnya dilakukan perhitungan matrix kovarian dari matrix X, yaitu Cx. formula yang digunakan adalah dot product untuk setiap fitur nya.
N adalah Jumlah Fitur dan XT adalah Matrix Transpose dari X
Sifat-sifat Cx :
Nilai kovarian merefleksikan noise dan redudansi pada fitur
Jika Y adalah matrix set data hasil pemetaan dan Cy adalah matrix covarian dari Y. maka :
- Semuan elemen selain diagonal Utama Haruslah nol, maka Cy harus matrix diagonal(Cy Matrix terkorelasi).
- Peletakan dimensi dalam Y dari kiri ke kanan di urutkan menurun.
liat angka udah keblinger duluan saya 🙂