Text Summarization


Text summarization adalah proses mengurangi dokumen teks dengan program komputer untuk menciptakan sebuah ringkasan yang mempertahankan poin yang paling penting dari dokumen asli. . Metode Ekstraksi bekerja dengan memilih bagian dari kata yang ada, frase, atau kalimat dalam teks asli untuk membentuk ringkasan.Sebaliknya, metode abstraksi membangun sebuah representasi semantik internal dan kemudian menggunakan teknik bahasa generasi alami untuk membuat ringkasan yang lebih dekat dengan meringkas secara manual . Metode The state-of-the-art abstraktif masih cukup lemah, sehingga sebagian besar penelitian telah difokuskan pada metode ekstraktif.

Suatu artikel yang memiliki ukuran yang panjang, akan mengakibatkan pembaca akan sangat kesulitan bila harus membaca dan menyerap semua informasi dari artikel tersebut. Text Summarization akan menghasilkan suatu produk teks yang tetap memiliki/ mengandung bagian-bagian yang penting dari artikel asli. Hasil pengujian menunjukkan bahwa proses summary sangat bergantung pada jenis dan struktur dari artikel. Sistem akan menghasilkan summary yang baik bila jenis artikel yang diproses adalah jenis ilmiah argumentasi. Sedangkan untuk struktur artikel, bila suatu artikel memiliki banyak paragraf dan disetiap paragraf memiliki lebih dari dua kalimat maka mendapatkan hasil summary yang baik.

Karakteristik Peringkasan Teks
Terdapat dua pendekatan pada peringkasan teks, yaitu : 
a. Ekstraksi (shallower approaches) 
Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting atau paling informatif dari teks sumber menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraf utama. Sedangkan teknik abstraksi melibatkan parafrase dari teks sumber. 

b. Abstraksi (deeper approaches). 
Teknik abstraksi mengambil intisari dari teks sumber, kemudian membuat ringkasan dengan menciptakan kalimat-kalimat baru yang merepresentasikan intisari teks sumber dalam bentuk berbeda dengan kalimat-kalimat pada teks sumber. Pada umumnya, abstraksi dapat meringkas teks lebih kuat daripada ekstraksi, tetapi sistemnya lebih sulit dikembangkan karena mengaplikasikan teknologi natural language generation yang merupakan bahasan yang dikembangkan tersendiri.

Berdasarkan jumlah sumbernya, sebuah ringkasan dapat dihasilkan dari satu sumber (single-document) atau dari banyak sumber (multi-document). Peringkasan single-document masukannya berupa sebuah teks dan keluarannya berupa sebuah teks baru yang lebih singkat. Pada peringkasan multi-document, masukan adalah beberapa dokumen teks yang memiliki tema sama, biasanya sudah ada dalam satu klaster kemudian akan dihasilkan keluaran berupa sebuah teks yang lebih singkat yang merangkum informasi-informasi utama pada klaster masukan.

Suatu ringkasan dapat bersifat general, yaitu ringkasan yang berupaya mengambil sebanyak mungkin informasi penting yang mampu menggambarkankeseluruhan isi teks. Selain itu dapat juga informasi yang diambil untuk ringkasan berdasar pada querymasukan yang didefinisikan pengguna sistem. Queryoriented atau user-oriented summarization mencoba mengambil informasi yang relevan dengan query pengguna dan menampilkannya dalam bentuk ringkasan.
Berdasarkan fungsinya, sebuah ringkasan dapat memiliki sifat indicative, informative, atau evaluative. Ringkasan informativeberfungsi menyajikan informasi utama atau yang paling penting dari teks sumber. Ringkasan indicative memberikan saran untuk pembacaan lebih lanjut mengenai hal-hal tertentu dalam isi teks. Sedangkan ringkasanevaluative memberi komentar atau evaluasi terhadap informasi utama pada teks sumber.

Metode Secara Umum
Metode dalam penerapan Text Summarization ini adalah menggunakan metode TF-IDF (Terms Frequency – Inverse Document Frequency) dan Exhaustive algorithm. Metode TF-IDF berfungsi untuk menghitung bobot nilai dari setiap kalimat dan relasi antar kalimat. Sedangkan Exhaustive algorithm berfungsi untuk menghasilkan path dari setiap penelusuran titik-titik pada graph. Dan kemudian hasil path tersebut akan menjadi suatu summary.

Metode Text Summarization terdapat 3 metode secara umum yaitu :
a. Extraction-based summarization
Dua jenis summarization sering dibahas dalam literatur adalah ekstraksi keyphrase, di mana tujuannya adalah untuk memilih kata-kata individu atau frase untuk “tag” sebuah dokumen, dan summarization dokumen, di mana tujuannya adalah untuk memilih seluruh kalimat untuk membuat ringkasan paragraf pendek.

Pada 2012, Light Filtering, salah satu metode yang digunakan untuk summarization kalimat dari dokumen yang dinilai menuju konten utamanya, menunjukkan hasil yang baik untuk menggunakan summarization pre-processing langkah sebelum ekstraksi keyphrase.

b. Abstraction-based summarization
Teknik ekstraksi hanya menyalin informasi yang dianggap paling penting oleh sistem untuk ringkasan (misalnya, klausa kunci, kalimat atau paragraf), sedangkan abstraksi melibatkan parafrase bagian dari dokumen sumber. Secara umum, abstraksi dapat menyingkat teks lebih kuat dari ekstraksi, tetapi program yang bisa melakukan hal ini lebih sulit untuk mengembangkan karena mereka memerlukan penggunaan teknologi natural language generation.
Sementara beberapa proses telah dilakukan dalam abstractive summarization (menciptakan sinopsis abstrak secara manual), sebagian besar sistem summarization adalah ekstraktif (memilih subset dari kalimat untuk menempatkan dalam ringkasan).

c. Maximum entropy-based summarization
Meskipun automating abstractive summarization adalah tujuan dari penelitian summarization, sistem yang paling praktis didasarkan pada beberapa bentuk adalah summarization ekstraktif. Maximum entropy-based summarization telah berhasil diterapkan untuk summarization dalam domain siaran berita

Pendekatan Teks Summarization terdapat dua pendekatan, yaitu:
a. Ekstraksi (extractive summary)
Pada teknik ekstraksi, sistem menyalin unit-unit teks yang dianggap paling penting dari sebuah teks menjadi ringkasan. Unit-unit teks yang disalin dapat berupa klausa utama, kalimat utama, atau paragraph utama tanpa ada penambahan kalimat-kalimat baru yang terdapat pada dokumen aslinya.

b. Abstraksi (abstractive summary)
Teknik abstraksi menggunakan metode linguistic untuk memeriksa dan menafsirkan teks dokumen menjadi ringkasan. Ringkasan teks tersebut dihasilkan dengan cara menambahkan kalimat-kalimat baru yang merepresentasikan intisari teks sumber ke dalam bentuk yang berbeda dengan kalimat-kalimat yang ada pada teks sumber.

Tipe Peringkasan Teks Otomatis
a. Ringkasan yang umum (Generic Summary)
* Perwakilan dari teks asli yang mencoba untuk mempresentasikan semua feature penting dari sebuah teks asal.
* Mengikuti pendekatan bottom-up (Information Retrieval).
* Pemakai menginginkan segala informasi yang penting.

b. Ringkasan Berpusat pada Pemakai (Query-driven)
* Peringkasan bersandar pada spesifikasi kebutuhan informasi pemakai, seperti topic atau query.
* Mengikuti pendekatan top-down (information Retrieval)

Bentuk Keluaran Peringkasan Teks Otomatis
a. Indicative
Indicative adalah ringkasan yang dapat mengidentifikasi topic yang terdapat pada teks sumber dan dapat memberikan ide ringkas tentang apa yang tertuang dalam teks sumber.
b. Informative
Informative adalah ringkasan yang dapat mengidentifikasi informasi tertentu dari dokumen sumber.

Tahapan Peringkasan Teks Otomatis
a. Interpretation
Pada proses ini merupakan menafsir teks sumber untuk mendapatkan representasi dari teks.
b. Transformation
Pada proses ini adalah mengubah representasi teks menjadi sebuah representasi ringkasan teks.
c. Generation
Pada proses ini merupakan ringkasan teks dari representasi ringkasan teks.



Komentar