Text summarization adalah
proses mengurangi dokumen teks dengan program komputer untuk menciptakan sebuah
ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. .
Metode Ekstraksi bekerja dengan memilih bagian dari kata yang ada, frase, atau
kalimat dalam teks asli untuk membentuk ringkasan.Sebaliknya, metode abstraksi
membangun sebuah representasi semantik internal dan kemudian menggunakan teknik
bahasa generasi alami untuk membuat ringkasan yang lebih dekat dengan meringkas
secara manual . Metode The state-of-the-art abstraktif masih cukup lemah,
sehingga sebagian besar penelitian telah difokuskan pada metode ekstraktif.
Suatu
artikel yang memiliki ukuran yang panjang, akan mengakibatkan pembaca akan
sangat kesulitan bila harus membaca dan menyerap semua informasi dari artikel
tersebut. Text Summarization akan menghasilkan suatu produk teks yang tetap
memiliki/ mengandung bagian-bagian yang penting dari artikel asli. Hasil
pengujian menunjukkan bahwa proses summary sangat bergantung pada jenis dan
struktur dari artikel. Sistem akan menghasilkan summary yang baik bila jenis
artikel yang diproses adalah jenis ilmiah argumentasi. Sedangkan untuk struktur
artikel, bila suatu artikel memiliki banyak paragraf dan disetiap paragraf
memiliki lebih dari dua kalimat maka mendapatkan hasil summary yang baik.
Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks, yaitu :
a. Ekstraksi (shallower approaches)
Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling
penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit
teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf
utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber.
b. Abstraksi (deeper approaches).
Teknik abstraksi mengambil
intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan
kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk
berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat
meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit
dikembangkan karena mengaplikasikan teknologi natural language generation yang
merupakan bahasan yang dikembangkan tersendiri.
Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi-document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan.
Suatu ringkasan dapat bersifat general, yaitu ringkasan yang berupaya
mengambil sebanyak mungkin informasi penting yang mampu
menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil
untuk ringkasan berdasar pada querymasukan yang didefinisikan pengguna sistem.
Queryoriented atau user-oriented summarization mencoba mengambil informasi yang
relevan dengan query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat memiliki sifat indicative,
informative, atau evaluative. Ringkasan informativeberfungsi menyajikan
informasi utama atau yang paling penting dari teks sumber. Ringkasan indicative
memberikan saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam
isi teks. Sedangkan ringkasanevaluative memberi komentar atau evaluasi terhadap
informasi utama pada teks sumber.
Metode Secara Umum
Metode dalam penerapan Text Summarization ini adalah menggunakan metode
TF-IDF (Terms Frequency – Inverse Document Frequency) dan Exhaustive algorithm.
Metode TF-IDF berfungsi untuk menghitung bobot nilai dari setiap kalimat dan
relasi antar kalimat. Sedangkan Exhaustive algorithm berfungsi untuk
menghasilkan path dari setiap penelusuran titik-titik pada graph. Dan kemudian
hasil path tersebut akan menjadi suatu summary.
Metode Text Summarization terdapat 3 metode secara umum yaitu :
a. Extraction-based summarization
Dua jenis summarization sering dibahas dalam literatur adalah ekstraksi
keyphrase, di mana tujuannya adalah untuk memilih kata-kata individu atau frase
untuk “tag” sebuah dokumen, dan summarization dokumen, di mana tujuannya adalah
untuk memilih seluruh kalimat untuk membuat ringkasan paragraf pendek.
Pada 2012, Light Filtering, salah satu metode yang digunakan untuk
summarization kalimat dari dokumen yang dinilai menuju konten utamanya,
menunjukkan hasil yang baik untuk menggunakan summarization pre-processing
langkah sebelum ekstraksi keyphrase.
b. Abstraction-based summarization
Teknik ekstraksi hanya menyalin informasi yang dianggap paling penting oleh
sistem untuk ringkasan (misalnya, klausa kunci, kalimat atau paragraf),
sedangkan abstraksi melibatkan parafrase bagian dari dokumen sumber. Secara
umum, abstraksi dapat menyingkat teks lebih kuat dari ekstraksi, tetapi program
yang bisa melakukan hal ini lebih sulit untuk mengembangkan karena mereka
memerlukan penggunaan teknologi natural language generation.
Sementara beberapa proses telah dilakukan dalam abstractive summarization
(menciptakan sinopsis abstrak secara manual), sebagian besar sistem
summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan
dalam ringkasan).
c. Maximum entropy-based
summarization
Meskipun automating abstractive summarization adalah tujuan dari penelitian
summarization, sistem yang paling praktis didasarkan pada beberapa bentuk
adalah summarization ekstraktif. Maximum entropy-based summarization telah
berhasil diterapkan untuk summarization dalam domain siaran berita
Pendekatan Teks Summarization terdapat dua pendekatan, yaitu:
a. Ekstraksi (extractive summary)
Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling
penting dari sebuah teks menjadi ringkasan. Unit-unit teks yang disalin dapat
berupa klausa utama, kalimat utama, atau paragraph utama tanpa ada penambahan
kalimat-kalimat baru yang terdapat pada dokumen aslinya.
b. Abstraksi (abstractive summary)
Teknik abstraksi menggunakan metode linguistic untuk memeriksa dan
menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut dihasilkan
dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari
teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada
teks sumber.
Tipe Peringkasan Teks Otomatis
a. Ringkasan yang umum (Generic Summary)
* Perwakilan dari teks asli
yang mencoba untuk mempresentasikan semua feature penting dari sebuah teks
asal.
* Mengikuti pendekatan bottom-up (Information
Retrieval).
* Pemakai menginginkan segala informasi yang penting.
b. Ringkasan Berpusat pada Pemakai (Query-driven)
* Peringkasan bersandar pada spesifikasi kebutuhan informasi pemakai,
seperti topic atau query.
* Mengikuti pendekatan top-down (information Retrieval)
Bentuk Keluaran Peringkasan Teks Otomatis
a. Indicative
Indicative adalah ringkasan yang dapat mengidentifikasi topic yang terdapat
pada teks sumber dan dapat memberikan ide ringkas tentang apa yang tertuang
dalam teks sumber.
b. Informative
Informative adalah ringkasan yang dapat mengidentifikasi informasi tertentu
dari dokumen sumber.
Tahapan Peringkasan Teks Otomatis
a. Interpretation
Pada proses ini merupakan menafsir teks sumber untuk mendapatkan
representasi dari teks.
b. Transformation
Pada proses ini adalah mengubah representasi teks menjadi sebuah
representasi ringkasan teks.
c. Generation
Pada proses ini merupakan ringkasan teks dari representasi ringkasan teks.
Komentar
Posting Komentar