Power of Simple Clustering – Less is More

Posted by ferisulianta on 6:57 AM

Posted on 12 June 2013 by Feri

Klasterisasi Data Penjualan Produk Makanan untuk Memahami Selera Konsumen Sebagai Dasar dalam Membangun Strategi Bisnis 

Terkait data transaksi produk makanan yang terakumulasi semenjak bulan januari hingga mei 2012, yang diambil dari transaksi penjualan mengacu pada struk pembelian mencatan transaki yang dilakukan oleh konsumen dengan ragam dan jumlah produk yang dibeli. Akan diimplementasikan teknik data mining terhadap akumulasi data transaksi guna mendapat pola selera konsumen terhadap produk yang dijual.
Beberapa algoritma dan berbagai sudut pandang akan digunakan untuk mendapatkan pola spesifik yang awalnya tidak terlihat, dan mengacu pada pola yang didapat menggunakan teknik klasterisasi akan dibangun berbagai strategi bisnis.

Klasterisasi Data

Pengelompokan data menggunakan klasterisasi dengan algoritma K-Means digunakan dengan pendekatan pengelompokan non hirarkikal untuk menyajikan klasterisasi yang baik berdasarkan karakteistik objeknya. Idenya didasari pada menemukan jumlah klaster yang diawali denga mendefiniskan dan membaca objek yang ingin di klasterisasi, maka sebaran objek akan diiedntifikasikan dengan aturan jarak yang mendefiniskan karakterisk yang serupa.
K-Means digunkan karena pada dasarnya prosedur pada K-means trelatif mudah dan sederhana untuk mengelompokan dataset pada sejumlah kelompok klaster, diasumsikan k adalah centroid untuk setia klasternya. Mengacu pada riset terdahulu, K-Means memiliki beberapa keunggulan sbb ::
- K-Means dikomputasi lebih cepat daripada klasterisasi hirarkikal jika K nya tidak besar.
- K-Means menghasilkan klaster dengan kerapatan data tinggi.
- Jumlah klaster didefinisikan dan ditetapkan, bergantung pada justifikasi user.
Memilih Jumlah Cluster
Pada klaterisasi fokus ditunjukan pada penentuan jumlah cluster atau K. Jumlah cluster yang ingin dibentuk iniakan digunakan sebagai masukan bagi algoritma. Pada dasarnya algoritma tidak mampu menentukan jumlah cluster dan ini bergantung sepenuhnya pada pengguna untuk mengidentifikasi terlebih dahulu jumlah cluster.

Tidak mudah menentukan cluster, dan ini adalah strategi yang dipilih dengan pertimbangan yang sifatnya intuitif. Misalnya, jika kita memiliki sejumlah data produk yang teralamati sebagai produk dengan cita rasa Barat dan cita rasa Indonesia. Jika menentukan algoritma k-berarti dengan k = 2, hal ini akan secara tegas ter-cluster, tapi jika k = 3, maka kita akan memaksa produk untuk dialokasikan ke dalam tiga kelompok. Dan jika k=4 atau lebih alokasinya semakin tidak alamiah dan mengandalkan komponen-komponen lain dari produk.

Dengan alasan ini, eksperimen dilakukan untuk nilai k yang berbeda guna mengidentifikasi nilai yang paling sesuai dengan data.

Algoritma Klasterisasi K-Meansdidefinisikan sbb :




Klasterisasi menggunakan Makedensitybaseclustered :

=== Run information ===
Scheme:weka.clusterers.MakeDensityBasedClusterer -M 1.0E-6 -W weka.clusterers.SimpleKMeans — -N 4 -A “weka.core.EuclideanDistance -R first-last” -I 500 -S 10
Relation: 5ab-klaster
Instances: 163
Attributes: 11
Clustered Instances
0 13 ( 8%)
1 4 ( 2%)
2 42 ( 26%)
3 104 ( 64%)

MakeDensityBased Clustering

Dikategorikan sebagai K-Means likes, karena kemampuannya dalam mendefiniisikan k klaster. Pada dasarnya Make Density Base menerapkan teknik kerapatan data yang terkolaborasi pada centroid, diawali dengan memisahkan daerah berkepadatan tinggi dengan daerah berkepadatan rendah, algoritma ini pun dinilai cocok untuk digunakan pada data dengan noise dan outlier. Penambahannya berada pada perhitungan rata-rata dengan standar deviasi setiap centroidnya., hal ini pula yang membuat kalsterisasi produk terkelompok berdasarkan rate penjualan (jumlah penjualan)

Algoritmanya :
  1. Inputkan jumlah klaster
  2. Tentukan centroid
  3. Pengelompokan objek berdasarkan jakak terdekat yang diawali dengan mempertimbangkan pula rata-rata (mean dan standar deviasi mengacu pada centroidnya) dan tentukan titik-titik terdekat klaster
  4. Titik-titik berpindah klaster
  5. Ulangi langkah diatas hingga didapati tidak ada klaster berpindah
  6. Selesai
Stragei bisnis mengacu pada klaster ke 3 : Produk pada klaster ke 3 dapat digantikan dengan produk lain yang memiliki citarasa barat atau cake selera indonesia dan juga produk dengan unsur keju yang memang terbukti laku, pada dasrnya produk yang terkelompok pada klaster 3 adalah produk tidak laku , minim pembeli dan mencirikan kegagalan eksperimen.
Kesimpulan dari kedua penggunaan algoritma ini tercermin bahwa penggunaan algoritma MDS (makedensitybase clustered)