Preface
Seperti yang sudah dijelaskan pada posting saya sebelumnya, salah satu kompetensi penting dalam Big Data adalah Statistical Analysis. Saya sering bertemu dengan teman-teman profesi IT, mahasiswa jurusan IT/Computer Science yang sering berujar Big Data is just a matter of how "big" your data. Rata-rata hanya membicarakan masalah "how to store/retrieve it?", "how advanced the technology?", well, tidak sepenuhnya salah, namun perlu dicermati bahwa teknik dasar dari utilisasi Big Data adalah statistik! Tidak peduli seberapa canggih teknologi/algoritme yang digunakan, statistika memegang peranan penting untuk menilai kelayakan/kualitas data yang akan digunakan pada saat preprocessing, dan mengevaluasi seberapa efektif algoritme yang digunakan.
Correlation Analysis
Kali ini akan dibahas tentang salah satu teknik statistik, yaitu correlation analysis (analisa korelasi). Dari namanya sudah tercermin bahwa teknik ini digunakan untuk menilai keterkaitan dari dua variabel, atau dua atribut dari sebuah dataset. Korelasi umumnya dinotasikan dengan simbol r, dengan rentang nilai antara -1 ≤ r ≤ 1. Di mana semakin mendekati -1, dua variabel tersebut dikatakan saling bertentangan (kontradiktif) secara linear, sedangkat semakin mendekati 1, dua variabel akan dikatakan saling berkaitan secara linear.
Langsung saja, bagaimanakah implementasinya? Korelasi, r, dari sejumlah n variabel x, dan y diformulakan sebagai berikut:

Di mana x, y masing-masing adalah mean dari x, dan y.
Bagaimana menjawab pertanyaan apakah penjualan es krim tersebut berkaitan dengan temperatur? Well, mari kita coba implementasikan formula korelasi di atas dengan dataset tersebut. Pertama, kita hitung terlebih dahulu mean dari Temperature (kita notasikan sebagai x) dan Sales (kita notasikan sebagai y), didapatkan:
x = 18.685
y = 402.4167 Langsung saja, bagaimanakah implementasinya? Korelasi, r, dari sejumlah n variabel x, dan y diformulakan sebagai berikut:

Di mana x, y masing-masing adalah mean dari x, dan y.
Contoh
Diketahui dua variabel penjualan es krim, yaitu temperatur dan penjualan:
Temperature
|
Sales
|
14.2°
|
$215
|
16.4°
|
$325
|
11.9°
|
$185
|
15.2°
|
$332
|
18.5°
|
$406
|
22.1°
|
$522
|
19.4°
|
$412
|
25.1°
|
$614
|
23.4°
|
$544
|
18.1°
|
$421
|
22.6°
|
$445
|
17.2°
|
$408
|
Bagaimana menjawab pertanyaan apakah penjualan es krim tersebut berkaitan dengan temperatur? Well, mari kita coba implementasikan formula korelasi di atas dengan dataset tersebut. Pertama, kita hitung terlebih dahulu mean dari Temperature (kita notasikan sebagai x) dan Sales (kita notasikan sebagai y), didapatkan:
x = 18.685
Langkah berikutnya kita lengkapi komputasi dengan masukkan masing-masing nilai x dan y ke formula di atas,didapatkan:
Sumber formula dan dataset.

Komentar
Posting Komentar