My Note: TextMining

Text Mining, proses analisis teks untuk menemukan informasi baru dari sekumpulan teks dimana sumbernya biasanya didapat dari dokumen.

Beda Data Mining dan Text Mining

	Data Mining	Text Mining
Data object	Numerical & categorical data	Textual data
Data structured	Terstruktur	Tidak dan semi terstruktur
Data representation	Simpel	Kompleks
Space dimension	Kecil dari puluhan ribu	Besar dari puluhan ribu
Methods	Analisis data, statistik, neural networks	Data mining, pengambilan data, NLP
Maturity	Implementasi sejak 1994	Implementasi mulai 2000
Market Workers	105 analis di perusahaan besar dan menengah	108 analis perusahaan dan pengguna individual

Tantangan TM (Text Mining):

Informasi dalam bentuk teks yang terstruktur
Database besar, hamper semua publikasi dalam bentuk elektronik
Jumlah kemungkinan yang tinggi, memungkinkan semua kata dan frase
Hubungan antara konsep2 teks kompleks dan halus, cth: “AOL bergabung dengan time-warner” ”time-warner dibeli oleh AOL”
Kata ambigu dan kepekaan konteks, cth: apple(perusahaan) atau apel (buah)
Kesalahan data, cth:kesalahan ejaan

Beda Weakly Structured Document dan Semistructured Document

Weakly Structured Document, dokumen yang relatif sedikit dalam cara penulisan, layout, atau indikator markup untuk menunjukkan struktur.

Semistructured Document, dokumen dengan format yang luas dan konsisten dimana metadata dapat lebih mudah disimpulkan.

Proses TM

Text preprocessing, pada tahap ini dilakukan proses pembersihan text dengan cara membuang kata2 yang tidak dipakai seperti header, footer, dll. Selain pembersihan teks, dilakukan juga restrukturisasi untuk tahapan selanjutnya.
Features generation, pada tahap ini dilakukan pengolahan teks dengan cara memisah-misahkan tiap kata, menghilangkan imbuhan, dan melakukan proses penghilangan stopwords (kata yang tidak relevan yang banyak muncul pada sebuah teks).
Features selection, peda tahap ini dilakukan penghilangan dimensi kata, yaitu membuang kata2 yang tidak penting.
Data mining / pattern discovery, pada tahap ini dilakukan proses data mining untuk mendapat pengetahuan baru pada teks. Dilakukan dengan teknik2 data mining.
Interpretation / evaluation, hasil dari proses mining akan diinterpretasikan kedalam bentuk tertentu untuk kemudian dilakukan proses evaluasi.

Functional architecture

Preprocessing tasks, mempersiapkan data untuk operasi inti dalam TM
Core mining operations, termasuk penemuan pola, analisis trends, dan algoritma penemuan tambahan knowledge
Presentation layer components, termasuk GUI dan akses ke bahasa query
Refinement techniques, termasuk metode yang menyring informasi dan data yang terkait erat dengan cluster

Core TM operations, 3 jenis pola paling umum yang dihadapi TM:

Distributions, pemilihan konsep dan perbandingan konsep
Frequent and near frequent sets, pengumpulan dokumen dilakukan untuk mengatur konsep
Associations, mengacu pada hubungan langsung antar konsep

Penanganan text data:

Membuat model data semi terstruktur
Pengambilan dokumen dari dokumen tidak terstruktur, menempatkan dokumen yang relevan berdasarkan keyword, berdasarkan kesamaan
Text mining, klasifikasi dokumen, pengelompokan dokumen, menemukan pola setiap dokumen

Pendekatan task-oriented, proses membuat representasi dokumen terstruktur dalam hal tugas dan bagian2nya. Bagian tugas dapat dibagi kedalam 3 kelas:

Persiapan pengolahan
Tugas NLP (natural language processing)
Tugas tergantung pada masalah

Text preprocessing

Evaluation
Text cleanup, pemebersihan text, misalnya mengubah teks dalam bentuk normal (dikonversi dari format biner)
Tokenization, memecah teks menjadi kalimat dan kata2
Part of speech tagging, menandai kata2 dalam sebuah teks dengan sesuai dengan bagian2 yang disampaikan. Berdasarakan aturan: tergantung pada aturan tata bahasa. Berdasarkan statistik: tergantung pada probabilitas urutan kata yang berbeda
Word sense disambiguation, menentukan kata yang memiliki arti yang berbeda dalam kalimat tertentu (ambigu)
Semantic structures, ada 2 metode. Full Parsing: menguraikan kata2 dari sebuah kalimat dengan menggunakan skema pohon. Chunking with partial parsing: menghasilkan konsep sintaksis

Tahap final dalam penataan dokumen adalah membuat representasi yang bermakna untuk kemudian dilakukan tahap pengolahan dari pengguna sistem TM. Ada 2 teknik utama, Text categorization: mengelompokkan dokumen sesuai kata kunci. Information extraction: pencarian informasi.

3 aplikasi text categorization:

Text indexing, membuat index teks dokumen
Document sorting and text filtering, menggolongkan dokumen dan penyaringan teks. Penyarinngan dilakukan untuk memenuhi kebutuhan informasi yang lebih spesifik.
Web page categorization , mengelompokkan teks pada halaman web, biasanya dengan membuat katalog hirarkis

Single-label categorization vs multilabel categorization

Single-label categorization, setiap dokumen milik dari satu kategori

Multilabel categorization, satu dokumen mungkin bisa saja milik beberapa kategori

Hard categorization vs soft categorization

Hard categorization, sistem kategorisasi otomatis membuat keputusan dalam memasangkan setiap kategori dokumen

Soft categorization, pendekatan semi-otomatis dimana keputusan untuk menetapkan dokumen ke kategori dibuat oleh manusia.

Teknik classification:

Decision trees
K-nearest neighbors
Naïve baves classifier
Neural networks
Support vector machine

Document clustering, menemukan kelompok dokumen yang serupa

Tantangan:

Volume data tekstual besar, harus ditangani secara efisien
Tidak ada gambaran jelas kesesuaian antara dokumen dan aplikasi

Solusinya dg menggunakan document clustering, 2 metode document clustering yang popular: K-means clustering dan agglomerative hierarchical clustering

Pendekatan text representation:

“bag of words”
Vector space
Stop word removal
Stemming

Langkah document clustering

Representasi dokumen
Pengurangan dimensi
Menerapkan algoritma clustering
Mengevaluasi efektivitas proses

Komponen clustering task:

Representasi
Menentukan jarak yang sesuai untuk domain
Realisasi pengelompokan objek
Abstraksi data
Evaluasi

Hard clustering vs soft clustering

Hard clustering, setiap objek milik dari satu cluster

Soft clustering, setiap objek mungkin milik beberapa cluster

Algoritma clustering:

K-means, mengukur tingkat kemiripan antar cluster dengan menggunakan parameter k
Agglomerative hierarchical clustering, mengukur tingkat kemiripan antar cluster dengan menngunakan single link, complete link

Isu / persoalan representasi teks

Secara umum sulit untuk menangkap fitur dari sebuah teks dokumen
Penyederhanaan dengan menunjukkan dokumen sebagai vektor kata2

Latent semantic indexing

Menangkap dimensi semantic
Mendapatkan representasi berbasis teks
Sebagai metode pengurangan dimensi efektif

4 jenis elemen yang dapat diekstrak dari teks:

Entities, objek yang dapat ditemukan dalam teks (cth: orang, perusahaan, lokasi)
Attributes, fitur dari entitas yang diekstrak (cth: usia seseorang, jenis organisasi)
Facts, hubungan antar entitas (cth: hubungan kerja antara seseorang dan perusahaan)
Events, kejadian yang terjadi pada suatu entitas (cth: merger antar 2 perusahaan, ulang tahun)

Arsitektur information extraction:

Tokenization, memecah dokumen kedalam kata2, kalimat, paragraf
Morphological and lexical analysis, menandai kata2 dalam sebuah teks sesuai dengan bagian yang disampaikan, menciptakan frasa dasar, analisis kata2 ambigu
Syntactic analysis, membentuk hubungan antar bagian yang berbeda dari setiap kalimat
Domain analysis, menggabungkan setiap informasi yang dikumpulkan dari komponen sebelumnya dan menggambarkan hubungan antar entitas

Jenis frase yang tidak boleh diekstrak:

Artefak (cth:MTV)
Kata benda umum yang digunakan dalam referensi anaforis (cth: pesawat, perusahaan)
Nama kelompok dan hukum diberi nama orang (cth: nobel prize)
Bentuk kata sifat dari nama lokasi (cth: amerika, jepang)
Bermacam-macam menggunakan angka secara tidak khusus

Template element(TE), memisahkan object dan atributnya berdasarkan jenisnya.

Tipe TE:

orang
organisasi
lokasi
Artefak

Template relationship task, template relationship task (TR) menyatakan hubungan domain-independen antara entitas dibandingkan dengan template entity task. Tujuannya adalah mencari hubungan yang ada antara unsur-unsur template diambil dari teks .

Scenario Template (ST), mengungkapkan tugas dan hubungan domain dan entitas .Tujuannya adalah menguji portabilitas masalah ekstraksi baru dengan cepat.

Anaphora, proses pencocokan antar NLP yang mengacu pada entitas

Pronominal anaphora, menggunakan kata ganti. 3 jenis kata ganti: reflexive pronouns(himself, herself), personal pronouns(he, him, you), possessive pronouns(her, his)
Proper name co-reference, menghubungkan semua variasi dari nama yang sebenarnya yang diamati dalam teks
Apposition, memberikan informasi tambahan bagi entitas
Predicate nominative, terjadi setelah menggabungkan kata kerja dan menyelesaikan hubungan dari subjek
Function-value co-reference, mendeskripsikan fungsi dan nilai dari entitas
Ordinal anaphora, mencakup sejumlah bilangan pokok seperti kata sifat pertama atau kedua
One anaphora, menggunakan ekspresi anaforis
Part whole co-reference, mengacu pada bagian yang sebelumnya

My Note

Minggu, 01 Mei 2011

TextMining

Tidak ada komentar:

Posting Komentar