Posted on 12 June 2013 by Feri
Klasterisasi Data Penjualan Produk Makanan untuk Memahami Selera Konsumen Sebagai Dasar dalam Membangun Strategi Bisnis
Beberapa algoritma dan berbagai sudut pandang akan digunakan untuk mendapatkan pola spesifik yang awalnya tidak terlihat, dan mengacu pada pola yang didapat menggunakan teknik klasterisasi akan dibangun berbagai strategi bisnis.
Klasterisasi Data
Pengelompokan data menggunakan klasterisasi dengan algoritma K-Means digunakan dengan pendekatan pengelompokan non hirarkikal untuk menyajikan klasterisasi yang baik berdasarkan karakteistik objeknya. Idenya didasari pada menemukan jumlah klaster yang diawali denga mendefiniskan dan membaca objek yang ingin di klasterisasi, maka sebaran objek akan diiedntifikasikan dengan aturan jarak yang mendefiniskan karakterisk yang serupa.
K-Means digunkan karena pada dasarnya prosedur pada K-means trelatif mudah dan sederhana untuk mengelompokan dataset pada sejumlah kelompok klaster, diasumsikan k adalah centroid untuk setia klasternya. Mengacu pada riset terdahulu, K-Means memiliki beberapa keunggulan sbb ::
- K-Means dikomputasi lebih cepat daripada klasterisasi hirarkikal jika K nya tidak besar.
- K-Means menghasilkan klaster dengan kerapatan data tinggi.
- Jumlah klaster didefinisikan dan ditetapkan, bergantung pada justifikasi user.
Memilih Jumlah Cluster
Pada klaterisasi fokus ditunjukan pada penentuan jumlah cluster atau K. Jumlah cluster yang ingin dibentuk iniakan digunakan sebagai masukan bagi algoritma. Pada dasarnya algoritma tidak mampu menentukan jumlah cluster dan ini bergantung sepenuhnya pada pengguna untuk mengidentifikasi terlebih dahulu jumlah cluster.
Tidak mudah menentukan cluster, dan ini adalah strategi yang dipilih dengan pertimbangan yang sifatnya intuitif. Misalnya, jika kita memiliki sejumlah data produk yang teralamati sebagai produk dengan cita rasa Barat dan cita rasa Indonesia. Jika menentukan algoritma k-berarti dengan k = 2, hal ini akan secara tegas ter-cluster, tapi jika k = 3, maka kita akan memaksa produk untuk dialokasikan ke dalam tiga kelompok. Dan jika k=4 atau lebih alokasinya semakin tidak alamiah dan mengandalkan komponen-komponen lain dari produk.
Dengan alasan ini, eksperimen dilakukan untuk nilai k yang berbeda guna mengidentifikasi nilai yang paling sesuai dengan data.
Algoritma Klasterisasi K-Meansdidefinisikan sbb :
Klasterisasi menggunakan Makedensitybaseclustered :
=== Run information ===
Scheme:weka.clusterers.MakeDensityBasedClusterer -M 1.0E-6 -W weka.clusterers.SimpleKMeans — -N 4 -A “weka.core.EuclideanDistance -R first-last” -I 500 -S 10
Relation: 5ab-klaster
Instances: 163
Attributes: 11
Clustered Instances
0 13 ( 8%)
1 4 ( 2%)
2 42 ( 26%)
3 104 ( 64%)
MakeDensityBased Clustering
Dikategorikan sebagai K-Means likes, karena kemampuannya dalam mendefiniisikan k klaster. Pada dasarnya Make Density Base menerapkan teknik kerapatan data yang terkolaborasi pada centroid, diawali dengan memisahkan daerah berkepadatan tinggi dengan daerah berkepadatan rendah, algoritma ini pun dinilai cocok untuk digunakan pada data dengan noise dan outlier. Penambahannya berada pada perhitungan rata-rata dengan standar deviasi setiap centroidnya., hal ini pula yang membuat kalsterisasi produk terkelompok berdasarkan rate penjualan (jumlah penjualan)
Algoritmanya :
- Inputkan jumlah klaster
- Tentukan centroid
- Pengelompokan objek berdasarkan jakak terdekat yang diawali dengan mempertimbangkan pula rata-rata (mean dan standar deviasi mengacu pada centroidnya) dan tentukan titik-titik terdekat klaster
- Titik-titik berpindah klaster
- Ulangi langkah diatas hingga didapati tidak ada klaster berpindah
- Selesai
Kesimpulan dari kedua penggunaan algoritma ini tercermin bahwa penggunaan algoritma MDS (makedensitybase clustered)
Tidak ada komentar:
Posting Komentar
Catatan: Hanya anggota dari blog ini yang dapat mengirim komentar.