Apa itu Information Retrieval ?
Information Retrieval ialah seni
dan ilmu mencari informasi di sementara dokumen, mencari dokumen itu sendiri,
mencari metadata yang menjelaskan dokumen, maupun mencari dalam database,
apakah relasional database itu berdiri sendiri ataupun database hypertext
jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data.
Menurut Kowalaski: Informasi
Retrieval ialah konsep sederhana dalam pencarian yang dilakukan oleh seseorang.
seperti contoh ketika user akan memeriksa informasi yang dia butuhkan, maka
sistem menerjemahakan kepada bentuk statment yang kemudian di eksekusi oleh
sistem pencari.
Information Retrieval digunakan untuk
menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna
dari suatu kumpulan informasi secara otomatis. Salah satu contoh aplikasi umum
dari informasi retrieval ialah search-engine (SE) maupun mesin pencarian yang
terdapat pada jaringan internet.
Dari definisi
diatas, sudah jelas dimaksudkan bahwa information retrevial ialah bidang
keilmuan dalam Teknologi informasi yang menjelaskan tentang Pencarian dan
Pengambilan Kembali Informasi. Ada dua elemen penting dalam Information Retrieval,
yaitu Precision dan Reacall.
a. Precision merupakan rasio
jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang
ditemukan oleh SE. Precision mencerminkan kualitas himpunan jawaban, tetapi
tidak memandang total jumlah dokumen yang relevan seraya kumpulan dokumen.
b. Recall meruakan
rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen
seraya kumpulan dokumen yang dianggap relevan.
Tujuan Di Dalam
Information Retrieval yang harus dipenuhi ialah bagaimana mendapatkan dokumen
relevan dan tidak mendapatkan dokumen tidak relevan. Tujuan lainnya merupakan
bagaimana menyusun dokumen atau data yang telah didapatkan untuk ditampilkan
secara terurut dari dokumen yang memiliki tingkat relevansi paling tingi ke
tingkat relevansi paling rendah.
Contoh sederhana Information
Retrieval ialah media penyimpanan kita sendiri. Terkadang ketika
semakin banyak data yang kita simpan dalam sebuah media penyimpanan, kita akan
lupa dimana kita meletakan data yang kita simpan, sehingga kita perlu melakukan
proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools
pencarian ataupun bisa dengan memeriksa satu persatu peta simpanan data kita.
Cara Kerja Information Retrieval (IR)
Untuk menemukan
informasi relevan yang kita cari, maka kata kunci (Keyword, Kueri) yang
dimasukan sebaiknya sesuai dengan informasi yang ingin didapat, karena dengan
keyword yang seusai maka proses pencarian dalam index di mesin Information
Retrieval akan lebih cepat, sehingga korpus yang sesuai dengan katakunci
yang dimasukan akan ditampilkan kembali pada si enduser.
a. Keyword, Kueri:
merupakan inputan kata kunci pencarian yang diberikan pengguna kepada Mesin
Pencari (Google atau Yahoo);
b. Indexing:
merupakan proses penyusunan index dari seluruh dokumen pada korpus, yang
terdiri dari kata-kata (token)
c. Korpus: ialah
kumpulan dokumen yang disalin ke mesin IR Misalnya Google “menjepret” seluruh
halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian
menyalinnya ke mesin IR di ruang servernya google.
Bagaimana mesin
Information Retrieval menyalin dokumen-dokumen yang berada di dunia maya
?. mesin IR memiliki robot (BOT) sejenis program yang bisa disebut juga dengan
crawler, program tersebut yang kemudian berfungsi untuk menyalin dokumen /
informasi yang berada disalasatu sumber misal website kepada server IR
tersebut.
Selain melakukan
crawling BOT tersebut juga melakukan indexing (pemberian index atau pembaharuan
index), index bersisi kata - kata (token) yang terdapat dalam suatu web/blog,
lebih simplenya ketika kita akan memposting suatu informasi melualui blog kita
selalu di minta memasukan TAG dalam artikel yang akan kita posting, begitulah
gambaran indexing dalam google, jadi index yang berada di mesin pencari
merupakan kumpulan miliyaran tag tag informasi.
Proses yang terjadi di dalam Information Retrieval sendiri
terdiri dari 2 bagian utama, yakni Indexing subsystem, dan Searching subsystem
(matching system).
a. Proses indexing digunakan
untuk membentuk basisdata terhadap koleksi dokumen yang dimasuk, dengan kata
lain, indexing ialah proses persiapan yang dilakukan kepada dokumen sehingga
dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, Term
indexing dan document indexing. Hasil Term indexing akan
menghasilkan koleksi kata yang akan digunakan dalam meningkatkan performansi
pencarian pada tahapan selanjutnya.
Tahap dalam proses
indexing ialah:
·
Word Token, yakni mengubah dokumen menjadi kumpulan term dengan
cara menghapus semua karakter dalam tanda baca yang terdapat kepada dokumen dan
mengubah kumpulan term menjadi lowercase.
·
Stopword Removal. Proses penghapusan kata-kata yang sering
ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.
·
Stemming. Proses mengubah suatu kata bentukan menjadi kata
dasar.
·
Term Weighting. Proses pembobotan setiap term di dalam dokumen.
Model Information
Retrieval ada 3 jenis:
· Model Vector Space: adalah model IR yang merepresentasikan
dokumen dan query dalam bentuk vektor dimensional
· Model Probabilistic: adalah model IR yang menggunakan framework
probabilistik
· Model Boolean: adalah model IR sederhana yang berdasarkan atas
teori himpunan dan aljabar boolean
Model ruang vektor
dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan
dokumen. Hasil retrieval yang didapat dari model-model ini merupakan dokumen
terangking yang dianggap paling relevan terhadap query.
Dalam model ruang
vektor, dokumen dan juga query direpresentasikan sebagai vektor di dalam ruang
vektor yang disusun di dalam indeks term, kemudian dimodelkan dengan persamaan
geometri. Sedangkan dalam model probabilistik direpresentasikan dengan membuat
asumsi-asumsi distribusi term dalam dokumen yang relevan dan tidak relevan
dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap query.
Apa itu Information Retrieval ?
Information Retrieval ialah seni
dan ilmu mencari informasi di sementara dokumen, mencari dokumen itu sendiri,
mencari metadata yang menjelaskan dokumen, maupun mencari dalam database,
apakah relasional database itu berdiri sendiri ataupun database hypertext
jaringan seperti Internet atau intranet, untuk teks , suara, gambar, atau data.
Menurut Kowalaski: Informasi
Retrieval ialah konsep sederhana dalam pencarian yang dilakukan oleh seseorang.
seperti contoh ketika user akan memeriksa informasi yang dia butuhkan, maka
sistem menerjemahakan kepada bentuk statment yang kemudian di eksekusi oleh
sistem pencari.
Information Retrieval digunakan untuk
menemukan kembali informasi-informasi yang relevan terhadap kebutuhan pengguna
dari suatu kumpulan informasi secara otomatis. Salah satu contoh aplikasi umum
dari informasi retrieval ialah search-engine (SE) maupun mesin pencarian yang
terdapat pada jaringan internet.
Dari definisi
diatas, sudah jelas dimaksudkan bahwa information retrevial ialah bidang
keilmuan dalam Teknologi informasi yang menjelaskan tentang Pencarian dan
Pengambilan Kembali Informasi. Ada dua elemen penting dalam Information Retrieval,
yaitu Precision dan Reacall.
a. Precision merupakan rasio
jumlah dokumen relevan yang ditemukan dengan total jumlah dokumen yang
ditemukan oleh SE. Precision mencerminkan kualitas himpunan jawaban, tetapi
tidak memandang total jumlah dokumen yang relevan seraya kumpulan dokumen.
b. Recall meruakan
rasio jumlah dokumen relevan yang ditemukan kembali dengan total jumlah dokumen
seraya kumpulan dokumen yang dianggap relevan.
Tujuan Di Dalam
Information Retrieval yang harus dipenuhi ialah bagaimana mendapatkan dokumen
relevan dan tidak mendapatkan dokumen tidak relevan. Tujuan lainnya merupakan
bagaimana menyusun dokumen atau data yang telah didapatkan untuk ditampilkan
secara terurut dari dokumen yang memiliki tingkat relevansi paling tingi ke
tingkat relevansi paling rendah.
Contoh sederhana Information
Retrieval ialah media penyimpanan kita sendiri. Terkadang ketika
semakin banyak data yang kita simpan dalam sebuah media penyimpanan, kita akan
lupa dimana kita meletakan data yang kita simpan, sehingga kita perlu melakukan
proses pencarian data yang kita lupa tadi, bisa dengan menggunakan tools
pencarian ataupun bisa dengan memeriksa satu persatu peta simpanan data kita.
Cara Kerja Information Retrieval (IR)
Untuk menemukan
informasi relevan yang kita cari, maka kata kunci (Keyword, Kueri) yang
dimasukan sebaiknya sesuai dengan informasi yang ingin didapat, karena dengan
keyword yang seusai maka proses pencarian dalam index di mesin Information
Retrieval akan lebih cepat, sehingga korpus yang sesuai dengan katakunci
yang dimasukan akan ditampilkan kembali pada si enduser.
a. Keyword, Kueri:
merupakan inputan kata kunci pencarian yang diberikan pengguna kepada Mesin
Pencari (Google atau Yahoo);
b. Indexing:
merupakan proses penyusunan index dari seluruh dokumen pada korpus, yang
terdiri dari kata-kata (token)
c. Korpus: ialah
kumpulan dokumen yang disalin ke mesin IR Misalnya Google “menjepret” seluruh
halaman website yang bisa diakses umum (tanpa login terlebih dahulu) kemudian
menyalinnya ke mesin IR di ruang servernya google.
Bagaimana mesin
Information Retrieval menyalin dokumen-dokumen yang berada di dunia maya
?. mesin IR memiliki robot (BOT) sejenis program yang bisa disebut juga dengan
crawler, program tersebut yang kemudian berfungsi untuk menyalin dokumen /
informasi yang berada disalasatu sumber misal website kepada server IR
tersebut.
Selain melakukan
crawling BOT tersebut juga melakukan indexing (pemberian index atau pembaharuan
index), index bersisi kata - kata (token) yang terdapat dalam suatu web/blog,
lebih simplenya ketika kita akan memposting suatu informasi melualui blog kita
selalu di minta memasukan TAG dalam artikel yang akan kita posting, begitulah
gambaran indexing dalam google, jadi index yang berada di mesin pencari
merupakan kumpulan miliyaran tag tag informasi.
Proses yang terjadi di dalam Information Retrieval sendiri terdiri dari 2 bagian utama, yakni Indexing subsystem, dan Searching subsystem (matching system).
a. Proses indexing digunakan
untuk membentuk basisdata terhadap koleksi dokumen yang dimasuk, dengan kata
lain, indexing ialah proses persiapan yang dilakukan kepada dokumen sehingga
dokumen siap untuk diproses. Proses indexing sendiri meliputi 2 proses, Term
indexing dan document indexing. Hasil Term indexing akan
menghasilkan koleksi kata yang akan digunakan dalam meningkatkan performansi
pencarian pada tahapan selanjutnya.
Tahap dalam proses
indexing ialah:
·
Word Token, yakni mengubah dokumen menjadi kumpulan term dengan
cara menghapus semua karakter dalam tanda baca yang terdapat kepada dokumen dan
mengubah kumpulan term menjadi lowercase.
·
Stopword Removal. Proses penghapusan kata-kata yang sering
ditampilkan dalam dokumen seperti: and, or, not dan sebagainya.
·
Stemming. Proses mengubah suatu kata bentukan menjadi kata
dasar.
·
Term Weighting. Proses pembobotan setiap term di dalam dokumen.
Model Information
Retrieval ada 3 jenis:
· Model Vector Space: adalah model IR yang merepresentasikan
dokumen dan query dalam bentuk vektor dimensional
· Model Probabilistic: adalah model IR yang menggunakan framework
probabilistik
· Model Boolean: adalah model IR sederhana yang berdasarkan atas
teori himpunan dan aljabar boolean
Model ruang vektor
dan model probabilistik adalah model yang menggunakan pembobotan kata dan perangkingan
dokumen. Hasil retrieval yang didapat dari model-model ini merupakan dokumen
terangking yang dianggap paling relevan terhadap query.
Dalam model ruang
vektor, dokumen dan juga query direpresentasikan sebagai vektor di dalam ruang
vektor yang disusun di dalam indeks term, kemudian dimodelkan dengan persamaan
geometri. Sedangkan dalam model probabilistik direpresentasikan dengan membuat
asumsi-asumsi distribusi term dalam dokumen yang relevan dan tidak relevan
dalam orde estimasi kemungkinan relevansi suatu dokumen terhadap query.
Komentar
Posting Komentar