1. Apa
itu analisis cluster?
Proses pengelompokan satu set objek fisik atau abstrak ke dalam kelas objek serupa yang disebut clustering. Sebuah cluster adalah kumpulan objek data yang mirip satu sama lain dalam cluster yang sama dan berbeda dengan benda-benda dicluster lain. Sekelompok objek data dapat diperlakukan secara kolektif sebagai satu kelompok dan dapat dianggap sebagai bentuk kompresi data.
Clustering juga disebut data segmentasi dalam beberapaaplikasi karena data yang besar cluster partisi set ke dalam kelompok sesuai dengan kesamaan mereka. Clustering juga dapat digunakan untuk mendeteksi outlier, di mana outlier(nilai-nilai yang "jauh" dari cluster ada) mungkin lebih menarik daripada kasus umum.
Clustering adalah bidang yang menantang penelitian di mana aplikasi punya kebutuhan khusus. Berikut ini adalah persyaratan khas clustering dalam data mining:
·
Scalability: algoritma pengelompokan banyak tugas yang dikerjakan dengan baik pada set data kecil yang berisi kurang dari beberapa ratus objek data,
namun database
yang besar mungkin berisi jutaan obyek.
·
Kemampuan
untuk menangani berbagai jenis tipe file: Banyak algoritma yang dirancang untuk cluster berbasis interval (numerik) data. Namun, aplikasi mungkin membutuhkan pengelompokan jenis data lain,
seperti biner, kategori nominal, dan data ordinal, atau campuran dari tipe data.
·
Penemuan cluster dengan bentuk sembarang: Algoritma yang
didasarkan pada pengukuran jarak cenderung untuk menemukan cluster dengan ukuran dan kepadatan yang sama . Namun, cluster bisa menjadi bentuk apapun. Hal ini penting untuk mengembangkan algoritma yang dapat mendeteksi kluster berbagai bentuk.
·
Persyaratan minimal untuk menentukan parameter input: Banyak algoritma cluster mengharuskan
pengguna untuk memasukkan parameter tertentu dalam analisis cluster (seperti jumlah cluster yang diinginkan). Hasil clustering dapat sangat sensitif terhadap parameter input.
·
Kemampuan
untuk menangani data yang rusak: Sebagian besar dunia database mengandung data rusak atau hilang, tidak diketahui, atau data yang salah. Beberapa algoritma cluster yang sensitif terhadap data tersebut dan dapat menyebabkan kualitas cluster yang buruk .
·
Clustering
tambahan dan ketidakpekaan terhadap urutan masukan:
Beberapa algoritma cluster tidak dapat memasukkan
data yang
baru dimasukkan (yaitu, update database) ke dalam struktur cluster yang ada dan, sebagai gantinya, harus menentukan clustering baru dari awal.
·
Dimensi yang tinggi: Sebuah database atau data warehouse dapat berisi beberapa dimensi atau atribut. Banyak algoritma cluster yang baik dalam menangani dimensi data rendah , yang hanya melibatkan dua sampai tiga dimensi.
·
Kendala berbasis cluster: dunia aplikasi mungkin perlu melakukan
pembuatan cluster
baru berdasarkan berbagai macam kendala.
·
Tujuan dan kegunaan: Pengguna mengharapkan hasil
clustering untuk dapat ditafsirkan, dipahami, dan bermanfaat. Artinya, clustering mungkin perlu terikat dengan penafsiran aplikasi
yang spesifik dan. Hal ini penting untuk mempelajari bagaimana tujuan aplikasi dapat mempengaruhi pemilihan fitur clustering dan metode.
Dengan persyaratan ini dalam pikiran, studi kita tentang
analisis cluster hasil sebagai berikut. Pertama, kita mempelajari berbagai jenis data dan bagaimana mereka dapat mempengaruhi metode clustering. kedua,
kami menyajikan kategorisasi umum metode clustering. Kami kemudian mempelajari setiap metode clustering dalam detail,termasuk metode partisi, metode hirarkis, kepadatan berbasi smetode, metode grid yang didasarkan, dan metode berbasis model. Kami juga meneliti clustering di ruang dimensi tinggi, clustering berbasis kendala, dan analisis outlier.