Langsung ke konten utama

Correlation Analysis

Preface

Seperti yang sudah dijelaskan pada posting saya sebelumnya, salah satu kompetensi penting dalam Big Data adalah Statistical Analysis. Saya sering bertemu dengan teman-teman profesi IT, mahasiswa jurusan IT/Computer Science yang sering berujar Big Data is just a matter of how "big" your data. Rata-rata hanya membicarakan masalah "how to store/retrieve it?", "how advanced the technology?", well, tidak sepenuhnya salah, namun perlu dicermati bahwa teknik dasar dari utilisasi Big Data adalah statistik! Tidak peduli seberapa canggih teknologi/algoritme yang digunakan, statistika memegang peranan penting untuk menilai kelayakan/kualitas data yang akan digunakan pada saat preprocessing, dan mengevaluasi seberapa efektif algoritme yang digunakan.

Correlation Analysis

Kali ini akan dibahas tentang salah satu teknik statistik, yaitu correlation analysis (analisa korelasi). Dari namanya sudah tercermin bahwa teknik ini digunakan untuk menilai keterkaitan dari dua variabel, atau dua atribut dari sebuah dataset. Korelasi umumnya dinotasikan dengan simbol r, dengan rentang nilai antara -1 ≤ r ≤ 1. Di mana semakin mendekati -1, dua variabel tersebut dikatakan saling bertentangan (kontradiktif) secara linear, sedangkat semakin mendekati 1, dua variabel akan dikatakan saling berkaitan secara linear.

Langsung saja, bagaimanakah implementasinya? Korelasi, r, dari sejumlah variabel x, dan y diformulakan sebagai berikut:

Di mana x, y masing-masing adalah mean dari x, dan y. 


Contoh

Diketahui dua variabel penjualan es krim, yaitu temperatur dan penjualan:

Temperature
Sales
14.2°
$215
16.4°
$325
11.9°
$185
15.2°
$332
18.5°
$406
22.1°
$522
19.4°
$412
25.1°
$614
23.4°
$544
18.1°
$421
22.6°
$445
17.2°
$408

Bagaimana menjawab pertanyaan apakah penjualan es krim tersebut berkaitan dengan temperatur? Well, mari kita coba implementasikan formula korelasi di atas dengan dataset tersebut. Pertama, kita hitung terlebih dahulu mean dari Temperature (kita notasikan sebagai x) dan Sales (kita notasikan sebagai y), didapatkan:

x = 18.685
y = 402.4167

Langkah berikutnya kita lengkapi komputasi dengan masukkan masing-masing nilai x dan y ke formula di atas,didapatkan:
Dikarenakan nilai korelasi r=0.9575 maka bisa dikatakan kedua variabel tersebut berkorelasi cukup kuat, atau dengan kata lain temperatur udara sangat mempengaruhi penjualan es krim :). HTH.

Sumber formula dan dataset.

Komentar

Postingan populer dari blog ini

Berkenalan dengan Laravel

Cukup disayangkan, Codeigniter sudah sampai ke tahap "penguburan" - paling tidak ini klaim dari Ellis Lab- dan ini cukup mengusik kenyamanan saya untuk menggunakan CI. Padahal juga sesuai dengan pengakuan rekan-rekan web developer, CI menurut saya cukup mudah dan powerful untuk digunakan dalam membangun sebuah web apps, dan terbukti juga CI sempat jadi trendsetter untuk framework PHP. Saya jadi penasaran framework PHP apa yang jadi the next PHP Framework star setelah CI, setelah menggali informasi beberapa kali, saya temukan Laravel saat ini banyak jadi batu loncatan developer CI. Alasannya sederhana, Laravel banyak kemiripan dengan CI. Dari analisa Google Trends juga terlihat kepopuleran Laravel saat tulisan ini dibuat juga menanjak meskipun masih kalah populer dengan CI (cukup mengherankan CI masih memimpin untuk masalah kepopuleran). Jadi langsung saja saya mencoba mengeksplorasi barang baru ini. Berikut langkah-langkahnya: 0. Install curl 1. Install composer: ...

Perbandingan Algoritme Dynamic Programming, Greedy, dan Backtrack Programming.

Sebetulnya posting ini bisa dibilang sudah kadaluarsa.  But, Better be late than never at all, right mate ? Ok, sebetulnya(lagi) Saya ingin menulis ulang semua yang ada di tugas semester 1 mata kuliah Analisa Algoritme, namun setelah dipikir-pikir lagi rasa-rasanya akan mubadzir, jadi di sini akan Saya gambarkan ulang secara ringkas saja apa perbedaan Dynamic Programming, Greedy dan Backtrack. Sebelum menyentuh ke dalam algoritmenya, Kita lihat terlebih dahulu kasus permasalahannya. Tentu belajar akan lebih mudah apabila tidak hanya dengan mempelajari teorinya saja. Umumnya orang akan lebih semangat apabila ada kasus menarik yang dipelajari. Tentang Knapsack Knapsack sendiri merupakan permasalahan pencuri yang ingin mencuri barang dengan cara memasukkan sebanyak-banyaknya dan seberharga-berharganya barang yang ada ( of course, its a theft ), sejumlah wadah yang pencuri tersebut punya. Diharapkan dengan menerapkan beberapa algoritme ini pencuri dapat meraup keuntungan sebanyak...

Data Analysis Series: Perceptron - Basic Artificial Neural Network

Pendahuluan Pada posting berikut ini saya akan menyampaikan materi tentang (Artificial) Neural Network. Algoritme yang satu ini terinspirasi dari cara kerja sel otak dalam memproses informasi. Sedikit di bawah ini pertama-tama akan saya sampaikam penjelasan bagaimana sel otak bekerja, untuk mempermudah pemahaman bagaimana ANN dapat terinspirasi. Sel Otak (Sumber:  www.wealltest.com ) Seperti yang kita ketahui, otak terdiri atas milyaran sel. Tiap-tiap sel tersebut terbagi atas tiga bagian, yaitu Dendrites, atau receptor, bagian yang menerima sinyal/stimulasi dari sel-sel otak yang lain. Sinyal/stimulasi yang masuk ke dendrite tersebut awalnya berasal dari indra perangsang kita, seperti mata, kulit, telinga, dan lidah. Dari dendrite, sinyal kemudian diteruskan melalui Axon, semacam pipa penghubung, yang mentransmisikan sinyal dari dendrite, untuk ditransmisikan ulang ke sel lain melalui Synapse. Bisa dikatakan, Synapse ini berfungsi sebagai akumulator untuk dari info...