Kamis, 26 September 2013

Analisis Cluster

1.      Apa itu analisis cluster?
Proses pengelompokan satu set objek fisik atau abstrak ke dalam kelas objek serupa yang disebut clustering. Sebuah cluster adalah kumpulan objek data yang mirip satu sama lain dalam cluster yang sama dan berbeda dengan benda-benda dicluster lain. Sekelompok objek data dapat diperlakukan secara kolektif sebagai satu kelompok dan dapat dianggap sebagai bentuk kompresi data.

Clustering juga disebut data segmentasi dalam beberapaaplikasi karena data yang besar cluster partisi set ke dalam kelompok sesuai dengan kesamaan mereka. Clustering juga dapat digunakan untuk mendeteksi outlier, di mana outlier(nilai-nilai yang "jauh" dari cluster ada) mungkin lebih menarik daripada kasus umum.

Clustering adalah bidang yang menantang penelitian di mana aplikasi punya kebutuhan khusus. Berikut ini adalah persyaratan khas clustering dalam data mining:
·        Scalability: algoritma pengelompokan banyak tugas yang dikerjakan dengan baik pada set data kecil yang berisi kurang dari beberapa ratus objek data, namun database yang besar mungkin berisi jutaan obyek.

·        Kemampuan untuk menangani berbagai jenis tipe file: Banyak algoritma yang dirancang untuk cluster berbasis interval (numerik) data. Namun, aplikasi mungkin membutuhkan pengelompokan jenis data lain, seperti biner, kategori nominal, dan data ordinal, atau campuran dari tipe data.

·        Penemuan cluster dengan bentuk sembarang: Algoritma yang didasarkan pada pengukuran jarak cenderung untuk menemukan cluster  dengan ukuran dan kepadatan yang sama . Namun, cluster bisa menjadi bentuk apapun. Hal ini penting untuk mengembangkan algoritma yang dapat mendeteksi kluster berbagai bentuk.

·        Persyaratan minimal  untuk menentukan parameter input: Banyak algoritma cluster mengharuskan pengguna untuk memasukkan parameter tertentu dalam analisis cluster (seperti jumlah cluster yang diinginkan). Hasil clustering dapat sangat sensitif terhadap parameter input.

·        Kemampuan untuk menangani data yang rusak: Sebagian besar dunia database mengandung data rusak atau hilang, tidak diketahui, atau data yang salah. Beberapa algoritma cluster yang sensitif terhadap data tersebut dan dapat menyebabkan  kualitas cluster yang buruk .

·        Clustering tambahan  dan ketidakpekaan terhadap urutan masukan: Beberapa algoritma cluster tidak dapat memasukkan data yang baru dimasukkan (yaitu, update database) ke dalam struktur cluster yang ada dan, sebagai gantinya, harus menentukan clustering baru dari awal.

·        Dimensi yang tinggi: Sebuah database atau data warehouse dapat berisi beberapa dimensi atau atribut. Banyak  algoritma cluster yang baik dalam menangani  dimensi data rendah , yang hanya melibatkan  dua sampai tiga dimensi.

·        Kendala berbasis cluster: dunia aplikasi mungkin perlu melakukan pembuatan cluster baru berdasarkan berbagai macam kendala.

·        Tujuan dan kegunaan: Pengguna mengharapkan hasil clustering untuk dapat ditafsirkan, dipahami, dan bermanfaat. Artinya, clustering mungkin perlu terikat dengan penafsiran aplikasi yang spesifik dan. Hal ini penting untuk mempelajari bagaimana tujuan aplikasi dapat mempengaruhi pemilihan fitur clustering dan metode.


Dengan persyaratan ini dalam pikiran, studi kita tentang analisis cluster hasil sebagai berikut. Pertama, kita mempelajari berbagai jenis data dan bagaimana mereka dapat mempengaruhi metode clustering. kedua,
kami menyajikan kategorisasi umum metode clustering. Kami kemudian mempelajari setiap metode clustering dalam detail,termasuk metode partisi, metode hirarkis, kepadatan berbasi smetode, metode grid yang didasarkan, dan metode berbasis model. Kami juga meneliti clustering di ruang dimensi tinggi, clustering berbasis kendala, dan analisis outlier.

Tidak ada komentar:

Posting Komentar