Kamis, 28 Februari 2013

UAS Information Retrieval



Metode Yang Digunakan Dalam Information Retrieval

Information Retrieval - Search engine tidak hanya terdiri dari sebuah algoritma saja, melainkan terdiri dari beberapa program yang menunjang untuk melakukan indexing, searching dan lainnya.

Beberapa metode dapat melalui sub-tahap yang berbeda pada proses indexing danretrieving. Misalnya sistem IR dengan model Boolean, yang hanya memeriksa ada atau tidak kata-kata kueri pada file index. Bila menggunakan model TF-IDF, maka proses indexing-nya pun akan sedikit berbeda. Model Probabilistik juga akan berbeda. Perbedaan yang mencolok adalah antara model Boolean dan model statistik (TF-IDF dan probabilistik), yaitu adanya perhitungan bobot.

1. Model Boolean:

Kata-kata diberi nilai 1 bila ada pada dokumen koleksi, dan nol bila tidak ada. Jadi bisa dikatakan bobotnya adalah 0 atau 1. Meskipun beberapa usaha modifikasi bobot dilakukan untuk meningkatkan relevansi hasil pencarian.

2. Model Statistik:

Kata-kata diberi nilai sesuai dengan frekuensi kemunculan pada dokumen. Beberapa formulasi matematika dilakukan untuk menghitung bobot yang berbeda antara kata yang penting dan kata yang tidak penting. Tentu saja mesin tidak tahu mana kata yang penting atau tidak penting. Penilaian dilakukan melalui formulasi tersebut, berdasarkan fakta bahwa:

• suatu kata dianggap penting dalam dokumen kalau sering muncul, tetapi tidak terlalu sering. Maka term frequency (TF) yang tinggi akan lebih baik.

• suatu kata dianggap lebih spesifik dalam dokumen, bila tidak banyak dokumen pada koleksi yang mengandung kata tersebut.Maka document frequency (DF) yang rendah akan lebih baik. Karena berlawanan, digunakanlah formulasi 'lawan' atau dalam bahasa matematika: inverse. Sehingga yang dihitung adalah IDF (inverse document frequency)

• Selanjutnya, bobot kata dapat diformulasikan dalam bentuk perkalian atau kombinasi antara TF dan IDF. Model statistik sederhana, bobot adalah perkalian sederhana antara TF dan IDF untuk setiap kata. Model statistik yang lebih kompleks (probabilistik), bobot adalah perkalian atau kombinasi yang agak kompleks sedikit antara TF, IDF dan komponen probabilistik tentunya.

Beberapa search engine untuk mengindeks dokumen web juga memperhatikan kata-kata penting tidak hanya berdasarkan kemunculan atau frekuensi. Misalnya bila suatu kata pada dokumen web mengandung tag-tag khusus, seperti bold, italic, anchor text (link), dan seterusnya, ia akan diberi bobot yang lebih tinggi atau penambahan bobot di luar konteks term frequency (kemunculan kata) tadi.

Perbedaan Precision dan Recall

Precision : Persentase (atau fraksi) dari hits yang relevan, yaitu sejauh mana hits diambil oleh query yang memenuhi persyaratan yang dihasilkan query.

Precision : Berapa bagian dari hasil dikembalikan relevan dengan Informasi yang dibutuhkan

Contoh : Dalam Search engine kitulis kata penny hendriyati, maka akan muncul semua situs atau tulisan yang berkaitan dengan kata/kalimat tersebut dan bisa saja search engine akan menampilkan penny…. atau hendriyati…

Recall : Persentase (atau fraksi) dari item yang relevan yang ditemukan oleh permintaan, yaitu sejauh mana permintaan menemukan semua item yang memenuhi persyaratan.

Recall : Berapa bagian dari dokumen yang relevan dalam kumpulan data yang dikembalikan oleh sistem

Conto : Dalam Search engine kitulis kata “penny hendriyati”, maka pada search engine hanya akan muncul semua situs atau tulisan yang berkaitan dengan kata/kalimat

Metode Web-Crawl

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang menggunakan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Sebutan/julukan lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari. Ketika web crawl search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Web Crawler ini melakukan pengecekan secara periodic terhadap konten-konten pada website.

Contoh : apabila kita masukkan kata kunci : afrasim pada suatu search engine maka search engine akan menampilkan semua situs yang ada kata afrasim baik nama website ataupun berita yang berkaitan dengan kata afrasim sehingga search akan langsung melakukan pendataan dan melihat pada metadata sehingga akan mempengaruhi situs tertentu sebagai top ranking pada search engine.

Tidak ada komentar: