Minggu, 01 Mei 2011

TextMining

Text Mining, proses analisis teks untuk menemukan informasi baru dari sekumpulan teks dimana sumbernya biasanya didapat dari dokumen.
Beda Data Mining dan Text Mining

Data Mining
Text Mining
Data object
Numerical & categorical data
Textual data
Data structured
Terstruktur
Tidak dan semi terstruktur
Data representation
Simpel
Kompleks
Space dimension
Kecil dari puluhan ribu
Besar dari puluhan ribu
Methods
Analisis data, statistik, neural networks
Data mining, pengambilan data, NLP
Maturity
Implementasi sejak 1994
Implementasi mulai 2000
Market Workers
105 analis di perusahaan besar dan menengah
108 analis perusahaan dan pengguna individual

Tantangan TM (Text Mining):
  1. Informasi dalam bentuk teks yang terstruktur
  2. Database besar, hamper semua publikasi dalam bentuk elektronik
  3. Jumlah kemungkinan yang tinggi, memungkinkan semua kata dan frase
  4. Hubungan antara konsep2 teks kompleks dan halus, cth: “AOL bergabung dengan time-warner” ”time-warner dibeli oleh AOL”
  5. Kata ambigu dan kepekaan konteks, cth: apple(perusahaan) atau apel (buah)
  6. Kesalahan data, cth:kesalahan ejaan
Beda Weakly Structured Document dan Semistructured Document
Weakly Structured Document, dokumen yang relatif sedikit dalam cara penulisan, layout, atau indikator markup untuk menunjukkan struktur.
Semistructured Document, dokumen dengan format yang luas dan konsisten dimana metadata dapat lebih mudah disimpulkan.



Proses TM

  1. Text preprocessing, pada tahap ini dilakukan proses pembersihan text dengan cara membuang kata2 yang tidak dipakai seperti header, footer, dll. Selain pembersihan teks, dilakukan juga restrukturisasi untuk tahapan selanjutnya.
  2. Features generation, pada tahap ini dilakukan pengolahan teks dengan cara memisah-misahkan tiap kata, menghilangkan imbuhan, dan melakukan proses penghilangan stopwords (kata yang tidak relevan yang banyak muncul pada sebuah teks).
  3. Features selection, peda tahap ini dilakukan penghilangan dimensi kata, yaitu membuang kata2 yang tidak penting.
  4. Data mining / pattern discovery, pada tahap ini dilakukan proses data mining untuk mendapat pengetahuan baru pada teks. Dilakukan dengan teknik2 data mining.
  5. Interpretation / evaluation, hasil dari proses mining akan diinterpretasikan kedalam bentuk tertentu untuk kemudian dilakukan proses evaluasi.

Functional architecture
  1. Preprocessing tasks, mempersiapkan data untuk operasi inti dalam TM
  2. Core mining operations, termasuk penemuan pola, analisis trends, dan algoritma penemuan tambahan knowledge
  3. Presentation layer components, termasuk GUI dan akses ke bahasa query
  4. Refinement techniques, termasuk metode yang menyring informasi dan data yang terkait erat dengan cluster



Core TM operations, 3 jenis pola paling umum yang dihadapi TM:
  1. Distributions, pemilihan konsep dan perbandingan konsep
  2. Frequent and near frequent sets, pengumpulan dokumen dilakukan untuk mengatur konsep
  3. Associations, mengacu pada hubungan langsung antar konsep

Penanganan text data:
  1. Membuat model data semi terstruktur
  2. Pengambilan dokumen dari dokumen tidak terstruktur, menempatkan dokumen yang relevan berdasarkan keyword, berdasarkan kesamaan
  3. Text mining, klasifikasi dokumen, pengelompokan dokumen, menemukan pola setiap dokumen

Pendekatan task-oriented, proses membuat representasi dokumen terstruktur dalam hal tugas dan bagian2nya. Bagian tugas dapat dibagi kedalam 3 kelas:
  1. Persiapan pengolahan
  2. Tugas NLP (natural language processing)
  3. Tugas tergantung pada masalah

Text preprocessing
  1. Evaluation
  2. Text cleanup, pemebersihan text, misalnya mengubah teks dalam bentuk normal (dikonversi dari format biner)
  3. Tokenization, memecah teks menjadi kalimat dan kata2
  4. Part of speech tagging, menandai kata2 dalam sebuah teks dengan sesuai dengan bagian2 yang disampaikan. Berdasarakan aturan: tergantung pada aturan tata bahasa. Berdasarkan statistik: tergantung pada probabilitas urutan kata yang berbeda
  5. Word sense disambiguation, menentukan kata yang memiliki arti yang berbeda dalam kalimat tertentu (ambigu)
  6. Semantic structures, ada 2 metode. Full Parsing: menguraikan kata2 dari sebuah kalimat dengan menggunakan skema pohon. Chunking with partial parsing: menghasilkan konsep sintaksis
Tahap final dalam penataan dokumen adalah membuat representasi yang bermakna untuk kemudian dilakukan tahap pengolahan dari pengguna sistem TM. Ada 2 teknik utama, Text categorization: mengelompokkan dokumen sesuai kata kunci. Information extraction: pencarian informasi.

3 aplikasi text categorization:
  1. Text indexing, membuat index teks dokumen
  2. Document sorting and text filtering, menggolongkan dokumen dan penyaringan teks. Penyarinngan dilakukan untuk memenuhi kebutuhan informasi yang lebih spesifik.
  3. Web page categorization , mengelompokkan teks pada halaman web, biasanya dengan membuat katalog hirarkis

Single-label categorization vs multilabel categorization
Single-label categorization, setiap dokumen milik dari satu kategori
Multilabel categorization, satu dokumen mungkin bisa saja milik beberapa kategori

Hard categorization vs soft categorization
Hard categorization, sistem kategorisasi otomatis membuat keputusan dalam memasangkan setiap kategori dokumen
Soft categorization, pendekatan semi-otomatis dimana keputusan untuk menetapkan dokumen ke kategori dibuat oleh manusia.

Teknik classification:
  1. Decision trees
  2. K-nearest neighbors
  3. Naïve baves classifier
  4. Neural networks
  5. Support vector machine

Document clustering, menemukan kelompok dokumen yang serupa
Tantangan:
  1. Volume data tekstual besar, harus ditangani secara efisien
  2. Tidak ada gambaran jelas kesesuaian antara dokumen dan aplikasi
Solusinya dg menggunakan document clustering, 2 metode document clustering yang popular: K-means clustering dan agglomerative hierarchical clustering

Pendekatan text representation:
  1. “bag of words”
  2. Vector space
  3. Stop word removal
  4. Stemming

Langkah document clustering
  1. Representasi dokumen
  2. Pengurangan dimensi
  3. Menerapkan algoritma clustering
  4. Mengevaluasi efektivitas proses
Komponen clustering task:
  1. Representasi
  2. Menentukan jarak yang sesuai untuk domain
  3. Realisasi pengelompokan objek
  4. Abstraksi data
  5. Evaluasi

Hard clustering vs soft clustering
Hard clustering, setiap objek milik dari satu cluster
Soft clustering, setiap objek mungkin milik beberapa cluster

Algoritma clustering:
  1. K-means, mengukur tingkat kemiripan antar cluster dengan menggunakan parameter k
  2. Agglomerative hierarchical clustering, mengukur tingkat kemiripan antar cluster dengan menngunakan single link, complete link

Isu / persoalan representasi teks
  1. Secara umum sulit untuk menangkap fitur dari sebuah teks dokumen
  2. Penyederhanaan dengan menunjukkan dokumen sebagai vektor kata2

Latent semantic indexing
  1. Menangkap dimensi semantic
  2. Mendapatkan representasi berbasis teks
  3. Sebagai metode pengurangan dimensi efektif

4 jenis elemen yang dapat diekstrak dari teks:
  1. Entities, objek yang dapat ditemukan dalam teks (cth: orang, perusahaan, lokasi)
  2. Attributes, fitur dari entitas yang diekstrak (cth: usia seseorang, jenis organisasi)
  3. Facts, hubungan antar entitas (cth: hubungan kerja antara seseorang dan perusahaan)
  4. Events, kejadian yang terjadi pada suatu entitas (cth: merger antar 2 perusahaan, ulang tahun)

Arsitektur information extraction:
  1. Tokenization, memecah dokumen kedalam kata2, kalimat, paragraf
  2. Morphological and lexical analysis, menandai kata2 dalam sebuah teks sesuai dengan bagian yang disampaikan, menciptakan frasa dasar, analisis kata2 ambigu
  3. Syntactic analysis, membentuk hubungan antar bagian yang berbeda dari setiap kalimat
  4. Domain analysis, menggabungkan setiap informasi yang dikumpulkan dari komponen sebelumnya dan menggambarkan hubungan antar entitas

Jenis frase yang tidak boleh diekstrak:
  1. Artefak (cth:MTV)
  2. Kata benda umum yang digunakan dalam referensi anaforis (cth: pesawat, perusahaan)
  3. Nama kelompok dan hukum diberi nama orang (cth: nobel prize)
  4. Bentuk kata sifat dari nama lokasi (cth: amerika, jepang)
  5. Bermacam-macam menggunakan angka secara tidak khusus

Template element(TE), memisahkan object dan atributnya berdasarkan jenisnya.
Tipe TE:
  1. orang
  2. organisasi
  3. lokasi
  4. Artefak
Template relationship task, template relationship task (TR) menyatakan hubungan domain-independen antara entitas dibandingkan dengan template entity task. Tujuannya adalah mencari hubungan yang ada antara unsur-unsur template diambil dari teks .
Scenario Template (ST), mengungkapkan tugas dan hubungan domain dan entitas .Tujuannya adalah menguji portabilitas masalah ekstraksi baru dengan cepat.

Anaphora, proses pencocokan antar NLP yang mengacu pada entitas
  1. Pronominal anaphora, menggunakan kata ganti. 3 jenis kata ganti: reflexive pronouns(himself, herself), personal pronouns(he, him, you), possessive pronouns(her, his)
  2. Proper name co-reference, menghubungkan semua variasi dari nama yang sebenarnya yang diamati dalam teks
  3. Apposition, memberikan informasi tambahan bagi entitas
  4. Predicate nominative, terjadi setelah menggabungkan kata kerja dan menyelesaikan hubungan dari subjek
  5. Function-value co-reference, mendeskripsikan fungsi dan nilai dari entitas
  6. Ordinal anaphora, mencakup sejumlah bilangan pokok seperti kata sifat pertama atau kedua
  7. One anaphora, menggunakan ekspresi anaforis
  8. Part whole co-reference, mengacu pada bagian yang sebelumnya

Tidak ada komentar:

Posting Komentar