Kamis, 28 Februari 2013

UAS Information Retrieval



Metode Yang Digunakan Dalam Information Retrieval

Information Retrieval - Search engine tidak hanya terdiri dari sebuah algoritma saja, melainkan terdiri dari beberapa program yang menunjang untuk melakukan indexing, searching dan lainnya.

Beberapa metode dapat melalui sub-tahap yang berbeda pada proses indexing danretrieving. Misalnya sistem IR dengan model Boolean, yang hanya memeriksa ada atau tidak kata-kata kueri pada file index. Bila menggunakan model TF-IDF, maka proses indexing-nya pun akan sedikit berbeda. Model Probabilistik juga akan berbeda. Perbedaan yang mencolok adalah antara model Boolean dan model statistik (TF-IDF dan probabilistik), yaitu adanya perhitungan bobot.

1. Model Boolean:

Kata-kata diberi nilai 1 bila ada pada dokumen koleksi, dan nol bila tidak ada. Jadi bisa dikatakan bobotnya adalah 0 atau 1. Meskipun beberapa usaha modifikasi bobot dilakukan untuk meningkatkan relevansi hasil pencarian.

2. Model Statistik:

Kata-kata diberi nilai sesuai dengan frekuensi kemunculan pada dokumen. Beberapa formulasi matematika dilakukan untuk menghitung bobot yang berbeda antara kata yang penting dan kata yang tidak penting. Tentu saja mesin tidak tahu mana kata yang penting atau tidak penting. Penilaian dilakukan melalui formulasi tersebut, berdasarkan fakta bahwa:

• suatu kata dianggap penting dalam dokumen kalau sering muncul, tetapi tidak terlalu sering. Maka term frequency (TF) yang tinggi akan lebih baik.

• suatu kata dianggap lebih spesifik dalam dokumen, bila tidak banyak dokumen pada koleksi yang mengandung kata tersebut.Maka document frequency (DF) yang rendah akan lebih baik. Karena berlawanan, digunakanlah formulasi 'lawan' atau dalam bahasa matematika: inverse. Sehingga yang dihitung adalah IDF (inverse document frequency)

• Selanjutnya, bobot kata dapat diformulasikan dalam bentuk perkalian atau kombinasi antara TF dan IDF. Model statistik sederhana, bobot adalah perkalian sederhana antara TF dan IDF untuk setiap kata. Model statistik yang lebih kompleks (probabilistik), bobot adalah perkalian atau kombinasi yang agak kompleks sedikit antara TF, IDF dan komponen probabilistik tentunya.

Beberapa search engine untuk mengindeks dokumen web juga memperhatikan kata-kata penting tidak hanya berdasarkan kemunculan atau frekuensi. Misalnya bila suatu kata pada dokumen web mengandung tag-tag khusus, seperti bold, italic, anchor text (link), dan seterusnya, ia akan diberi bobot yang lebih tinggi atau penambahan bobot di luar konteks term frequency (kemunculan kata) tadi.

Perbedaan Precision dan Recall

Precision : Persentase (atau fraksi) dari hits yang relevan, yaitu sejauh mana hits diambil oleh query yang memenuhi persyaratan yang dihasilkan query.

Precision : Berapa bagian dari hasil dikembalikan relevan dengan Informasi yang dibutuhkan

Contoh : Dalam Search engine kitulis kata penny hendriyati, maka akan muncul semua situs atau tulisan yang berkaitan dengan kata/kalimat tersebut dan bisa saja search engine akan menampilkan penny…. atau hendriyati…

Recall : Persentase (atau fraksi) dari item yang relevan yang ditemukan oleh permintaan, yaitu sejauh mana permintaan menemukan semua item yang memenuhi persyaratan.

Recall : Berapa bagian dari dokumen yang relevan dalam kumpulan data yang dikembalikan oleh sistem

Conto : Dalam Search engine kitulis kata “penny hendriyati”, maka pada search engine hanya akan muncul semua situs atau tulisan yang berkaitan dengan kata/kalimat

Metode Web-Crawl

Web crawler adalah suatu program atau script otomatis yang relatif simple, yang menggunakan metode tertentu untuk melakukan scan atau “crawl” ke semua halaman-halaman Internet untuk membuat index dari data yang dicarinya. Sebutan/julukan lain untuk web crawl adalah web spider, web robot, bot, crawl dan automatic indexer.

Search engine menggunakan web crawl untuk mengumpulkan informasi mengenai apa yang ada di halaman-halaman web publik. Tujuan utamanya adalah mengumpukan data sehingga ketika pengguna Internet mengetikkan kata pencarian di komputernya, search engine dapat dengan segera menampilkan web site yang relevan dan sesuai dengan yang dicari. Ketika web crawl search engine mengunjungi halaman web, ia “membaca” teks yang terlihat, hyperlink, dan konten berbagai tag yang digunakan dalam situs seperti meta tag yang banyak berisi keyword. Web Crawler ini melakukan pengecekan secara periodic terhadap konten-konten pada website.

Contoh : apabila kita masukkan kata kunci : afrasim pada suatu search engine maka search engine akan menampilkan semua situs yang ada kata afrasim baik nama website ataupun berita yang berkaitan dengan kata afrasim sehingga search akan langsung melakukan pendataan dan melihat pada metadata sehingga akan mempengaruhi situs tertentu sebagai top ranking pada search engine.

UTS Information Retrieval

Information Retrieval adalah “studi tentang sistem pengindeksan, pencarian, dan mengingat data, khususnya teks, gambar, suara, data atau bentuk tidak terstruktur lainnya.”

Information Retrieval adalah seni dan ilmu dalam mencari informasi pada dokumen, mencari untuk dokumen mereka sendiri, mencari untuk metadata dengan gambaran berbentuk dokumen, atau mencari dalam database, apakah itu hubungan database yang berdiri sendiri atau hiperteks jaringan database seperti internet atau intranet, untuk teks, suara, gambar atau data.

Information Retrieval System digunakan untuk menemukan kembali (to Retrieve) informasi-informasi yang relevan terhadap kebutuhan user dari suatu kumpulan/pangkalan informasi secara otomatis. Sistem temu balik informasi ini terutama berkaitan dengan pencarian/penelusuran informasi yang isinya tidak memiliki struktur. Demikian juga ekspresi kebutuhan pengguna yang disebut query, yang juga tidak memiliki struktur. Hal ini membedakan Information retrieval system dengan database system.

Cara Kerja Information Retrieval

Secara prinsip, penyimpanan informasi dan penemuan kembali informasi adalah hal yang sederhana, misalkan terdapat tempat penyimpanan dokumen-dokumen dan seseorang (user) merumuskan suatu pertanyaan (reguest atau query) yang jawabannya adalah himpunan dokumen yang mengandung informasi yang diperlukan yang diexpresikan melalui pertanyaan user. Mesin pencari akan mencari informasi atau pertanyaan yang telahdi request tadi. Ada beberapa teknik yang digunakan oleh mesin pencari untuk menemukan dokumen yang relevan sesuai dengan kata kunci dan tentu saja tidak sama dengan pencarian database dengan Select …. Whare…

Semua teknik pada intinya berusaha menghitung kemiripan antara dokumen yang ditemukan terhadap kueri yang diinputkan pengguna. Pada akhirnya, teknik-teknik tersebut menentukan cara penyusunan index dari seluruh dokumen pada koleksi.

sebelum membahas lebih mendalam tekniknya, kita perjelas dulu istilahnya.

Query : inputan kata kunci pencarian yang diberikan pengguna kepada mesin IR seperti google, yahoo, bing, etc

Indexing : proses penyusunan index dari seluruh dokumen pada koleksi, yang terdiri dari kata-kata (token)

Koleksi : adalah kumpulan dokumen yang disalin ke mesin IR (istilah IR-nya korpus). Misalnya Google mengambil seluruh halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian menyalinnya ke mesin IR di ruang servernya google (kira-kira total halaman internet seluruh dunia berapa Terrabyte ya?).

Biasanya menggunakan program robot atau crawler untuk menelusuri halaman-halaman internet, seluruhnya, termasuk blog yang anda baca ini.

Setelah halaman dijepret dan disalin ke server Google (dokumen baru), maka proses indexing akan dilakukan kembali. Tentu saja tidak mengindeks ulang seluruhnya, tapi lebih kepada proses update index terhadap kata-kata yang ketemu pada dokumen baru tersebut.

Tokenisasi : proses pembentukan token dari suatu dokumen, dengan memecah dokumen menjadi kata-kata, dapat berupa array kata.

Retrieving : proses menemukan dokumen dari koleksi sesuai dengan kata kunci (query) pengguna.



Masa Depan IR hubungannya dengan manusia

1. Semakin banyak orang menggunakan IR via internet.

Berdasarkan data dari Internet World Stats (IWS), total pengguna internet di dunia saat ini telah mencapai 1,7 miliar orang. Coba bandingkan dengan keseluruhan populasi masyarakat seluruh dunia yang berjumlah 6,7 miliar orang. Tak diragukan lagi, pada 2020 akan semakin banyak orang yang akan memiliki akses internet. National Science Foundation bahkan memprediksi bahwa pengguna internet akan membludak hingga lima miliar orang.

2. IR akan membawa konten berkapasitas exabytes bahkan zettabytesdalam dunia internet. Para ahli menyebut istilah ‘exaflood’ untuk menunjuk pertumbuhan jumlah data yang sangat cepat, yang ditransfer melalui Internet. Cisco memperkirakan di 2012 trafik internet global akan naik hingga 44 exabytes per bulan, dua kali lipat dari trafik internet sekarang, yang artinya juga sangat berpengaruh pada layanan Search Engine sebagai implemetasi IR.

3. IR akan semakin Wireless

Jumlah pelanggan broadband mobile di dunia saat ini membludak, mencapai angka 257 juta pada kuartal kedua 2009. Angka ini mewakili pertumbuhan konsumen 3G, WiMAX dan layanan akses data berkecepatan tinggi lainnya sebesar 85 persen. Pada 2014, para analis memprediksi akan ada sekira 2,5 miliar orang yang berlangganan layanan broadband mobile, dengan demikian IR tidak hanya didapatkan dalam internet tetapi dalam perkembangannya bisa mobile dimana saja dengan aplikasinya.

4. Semakin banyak layanan berbasis IR

Para ahli sepakat bahwa dalam beberapa tahun ke depan akan ada lebih banyak layanan berbasis cloud computing (komputasi awan) atau berbasis internet. Studi terbartu dari Telecom Trends International memperkirakan bahwa cloud computing akan meningkatkan pendapatan hingga USD45,5 miliar pada 2015.

5. Manajemen jaringan akan lebih otomatis

Selain lemah dari sisi keamanan, kelemahan terbesar internet saat ini adalah kurang mapannya teknik manajemen jaringan. Itu sebabnya, salah satu lembaga bernama National Science Foundation berambisi dalam membuat perangkat manajemen jaringan terbaru. Dengan perangkat ini sistem reboot, pengumpulan data dan tugas lainnya bisa dilakukan secara otomatis.

6. IR tidak akan selalu bergantung pada konektivitas yang selalu ‘on’ Dengan kian banyaknya pengguna internet di pedalaman dan mereka yang bergantung pada komunikasi wireless, arsitektur internet mengharuskan pengguna selalu memiliki koneksi yang terus ‘on’. Sebagai gantinya, para ilmuwan kini tengah mengembangkan teknik komunikasi yang bisa menolerir delay atau melakukan komunikasi dari pengguna satu ke yang lainnya dengan cara berbeda, terutama bagi aplikasi mobile. Teknik ini akan bergantung pada sebuah teknologi bernama inter-planetary Internet protocol.

7. IR semakin memikat para hacker

Pada 2020, akan ada lebih banyak hacker yang menyerang. Saat ini internet ibarat telah dikepung hacker. Perusahaan keamanan internet Symantec mendeteksi adanya 1,6 juta virus internet baru di 2008. Jumlah ini bertambah dua kali lipat dari tahun sebelumnya. Para ahli memperkirakan, serangan ini tak hanya akan lebih canggih tetapi juga akan semakin menjalar di dunia maya setiap harinya seiring semakin akuratnya teknologi IR.

Manfaat IR bagi perusahaan, diantaranya :

• IR sangat mendukung dalam hal kebutuhan Informasi yang akurat mengenai apa saja yang berhubungan dengan layanan ataupun produk suatu perusahaan, sebagai acuan dalam pengambilan keputusan.

• IR dapat di maksimalkan sebagai sumber ide atau inspirasi untuk memajukan sebuah usaha, dengan adanya Search Engine kita bisa mengetahui perkembangan bidang usaha yang kita tekuni dari seluruh dunia, IR dapat memberikan sumber pemikiran baru untuk perusahaan.

• IR dalam hal efektifitas dan efisiensi waktu, tenaga, materi, dimana dengan adanya IR pencarian data, analisa dan survey dapat dilakukan hanya dengan menggunakan internet sebagai media IR.

• IR merupakan sumber informasi yang mungkin bisa bermanfaat untuk perusahaan sebagai bahan untuk pengembangan dan bahan untuk merancang strategi perusahaan.

• Dengan adanya IR perusahaan bisa langsung menganalisa segment pelanggan maupun kemampuan kompetitor melalui search engine sebagai mesin pencari data.

• Dengan adanya IR perusahaan bisa mendapatkan informasi manajerial seputar bidang perusahaan guna menunjang kinerja karyawan untuk lebih profesional dan untuk pengembangan perusahaan.

Dari manfaat IR di atas sudah jelas bahwa IR sangat membantu kinerja suatu Perusahaan.