Di Balik Skor ROUGE: Seni Menghitung Kualitas Ringkasan Teks dengan Tumpang Tindih Kata

Dalam dunia Natural Language Processing (NLP), kita sering disajikan dengan skor-skor metrik yang tampak abstrak: BLEU, F1-Score, dan salah satu yang paling fundamental dalam evaluasi ringkasan teks, ROUGE. Ketika sebuah perusahaan teknologi mengumumkan model AI terbaru mereka memiliki "skor ROUGE-1 sebesar 45," apa sebenarnya arti angka tersebut? Bagaimana sebuah angka bisa secara objektif menentukan apakah sebuah ringkasan yang dibuat oleh mesin itu "baik" atau "buruk"? Jawabannya terletak pada sebuah konsep yang elegan dalam kesederhanaannya: tumpang tindih kata.

baca Juga:Indonesia akan melistriki 5.700 desa dan 4.400 kecamatan pada tahun 2030

ROUGE (Recall-Oriented Understudy for Gisting Evaluation) bukanlah sebuah AI yang mampu "memahami" makna sebuah ringkasan. Sebaliknya, ia adalah seorang akuntan yang sangat teliti, seorang ahli statistik yang bertugas menghitung kesamaan antara teks yang dihasilkan mesin dengan teks referensi buatan manusia. Ia beroperasi di bawah asumsi dasar bahwa semakin banyak kata dan frasa yang sama antara ringkasan mesin dan ringkasan ideal buatan manusia, semakin baik kualitas ringkasan mesin tersebut.

Artikel ini akan membawa Anda menyelam lebih dalam, melihat "di balik skor ROUGE" untuk memahami seni dan ilmu di balik cara kerjanya. Kita akan membedah bagaimana metode penghitungan tumpang tindih kata ini menjadi standar emas dalam mengukur kemajuan teknologi peringkasan otomatis.

Fondasi Penilaian: Apa yang Sebenarnya Dihitung oleh ROUGE?

Sebelum membedah berbagai jenisnya, kita harus memahami prinsip inti ROUGE. Bayangkan Anda seorang guru yang memeriksa esai ringkasan seorang siswa. Alih-alih menilai gaya bahasa atau kedalaman pemahaman, Anda hanya diberi satu tugas: lingkari setiap kata atau frasa di esai siswa yang juga muncul di kunci jawaban yang telah Anda siapkan. Skor siswa akan didasarkan pada seberapa banyak lingkaran yang mereka dapatkan.

Inilah yang dilakukan ROUGE.

Ringkasan Kandidat (Candidate Summary): Ini adalah teks yang dihasilkan oleh mesin atau model AI.
Ringkasan Referensi (Reference Summary): Ini adalah "kunci jawaban" atau "standar emas", satu atau lebih ringkasan yang ditulis oleh manusia profesional.

Tugas ROUGE adalah secara sistematis menghitung tumpang tindih leksikal (kata dan frasa) antara kandidat dan referensi. Fokus utamanya adalah pada recall, yaitu seberapa banyak informasi penting dari ringkasan referensi yang berhasil "diingat" atau dicakup oleh ringkasan kandidat.

Membedah Keluarga ROUGE: Dari Kata Tunggal hingga Struktur Kalimat

ROUGE bukanlah metrik tunggal, melainkan sebuah keluarga metrik yang masing-masing memiliki lensa berbeda untuk melihat tumpang tindih. Mari kita gunakan contoh untuk menjelajahi varian yang paling umum.

Teks Referensi (Manusia): "Tim ilmuwan dari universitas lokal berhasil menemukan spesies baru."
Teks Kandidat (Mesin): "Spesies baru ditemukan oleh tim ilmuwan lokal."

ROUGE-N: Menghitung Blok Bangunan Bahasa (N-Gram)

N-Gram adalah urutan 'N' kata yang berdekatan. ROUGE-N mengukur tumpang tindih n-gram ini.

ROUGE-1 (Unigram): Ini menghitung tumpang tindih kata-kata tunggal.
- Unigram Referensi: {tim, ilmuwan, dari, universitas, lokal, berhasil, menemukan, spesies, baru}
- Unigram Kandidat: {spesies, baru, ditemukan, oleh, tim, ilmuwan, lokal}
- Tumpang Tindih: {tim, ilmuwan, lokal, spesies, baru} - Ada 5 kata yang sama.
- Kegunaan: ROUGE-1 sangat baik dalam mengukur apakah ringkasan mesin berhasil menangkap kata-kata kunci atau entitas penting dari teks asli.
ROUGE-2 (Bigram): Ini menghitung tumpang tindih pasangan dua kata.
- Bigram Referensi: {"tim ilmuwan", "ilmuwan dari", "dari universitas", "universitas lokal", ...}
- Bigram Kandidat: {"spesies baru", "baru ditemukan", "ditemukan oleh", "oleh tim", "tim ilmuwan", "ilmuwan lokal"}
- Tumpang Tindih: {"tim ilmuwan"} - Hanya ada 1 bigram yang sama persis.
- Kegunaan: ROUGE-2 lebih ketat. Skor yang tinggi menunjukkan bahwa mesin tidak hanya menangkap kata kunci, tetapi juga mampu merangkainya dalam frasa pendek yang benar secara gramatikal dan mirip dengan manusia.

ROUGE-L: Melacak Alur Kalimat (Longest Common Subsequence)

ROUGE-L adalah varian yang lebih canggih. Ia tidak mengharuskan kata-kata untuk berdekatan, tetapi harus muncul dalam urutan yang sama. Ia mencari sub-urutan kata umum terpanjang (Longest Common Subsequence - LCS).

Referensi: "Tim ilmuwan ... lokal ... menemukan spesies baru."
Kandidat: "Spesies baru ... tim ilmuwan lokal."

LCS antara keduanya adalah "tim ilmuwan lokal" atau "spesies baru". ROUGE-L akan menghitung skor berdasarkan panjang LCS ini.

Kegunaan: ROUGE-L sangat baik untuk menilai koherensi dan struktur kalimat. Ia memberikan kredit bahkan jika mesin memparafrasakan kalimat dengan menambahkan atau menghilangkan beberapa kata, selama alur informasi utamanya tetap terjaga. Ini membuatnya lebih fleksibel daripada ROUGE-N.

Dari Teori ke Praktik: Bagaimana Skor ROUGE Dihitung?

Skor ROUGE biasanya mencakup precision, recall, dan F1-score. Mari kita fokus pada recall ROUGE-1 sebagai contoh sederhana, yang merupakan metrik paling umum dilaporkan.

Rumus Recall ROUGE-1 adalah:

Recall=Total Kata dalam Ringkasan ReferensiJumlah Kata yang Sama

Menggunakan contoh kita sebelumnya:

Jumlah Kata yang Sama: 5 ({tim, ilmuwan, lokal, spesies, baru})
Total Kata dalam Ringkasan Referensi: 9
Skor Recall ROUGE-1 = 5 / 9 = 0.555

Artinya, ringkasan mesin berhasil mencakup sekitar 55.5% dari kata-kata penting yang ada di ringkasan referensi manusia. Para peneliti kemudian akan merata-ratakan skor ini dari ribuan contoh untuk mendapatkan gambaran keseluruhan performa model AI mereka.

baca Juga:Wakil Rektor UTI Presentasikan Penelitiannya di Parallel Session ICMEM 2025 di SBM ITB Bandung

Lebih dari Sekadar Angka: Interpretasi dan Keterbatasan

Skor ROUGE yang "baik" bersifat relatif dan bergantung pada dataset. Namun, skor yang lebih tinggi secara konsisten menunjukkan model yang lebih baik. Penting untuk diingat bahwa ROUGE memiliki keterbatasan signifikan.

Kelemahan terbesarnya adalah ia buta terhadap semantik (makna). ROUGE tidak mengerti sinonim atau parafrasa.

Referensi: "Presiden AS tiba di Jakarta."
Kandidat: "Pemimpin Amerika Serikat mendarat di ibu kota Indonesia."

Secara semantik, ringkasan kandidat ini sempurna. Namun, skor ROUGE-nya akan menjadi nol karena tidak ada satu pun kata yang tumpang tindih secara persis. Inilah sebabnya mengapa evaluasi AI yang komprehensif sering kali masih membutuhkan penilaian manusia di samping metrik otomatis seperti ROUGE.

penulis:dafa Aditya.f

About Teknokrat

Why Teknokrat?

Quality

Collaboration & Partnerships

Supporting Units

Undergraduate Programs

Master's Programs

International Program

Faculty of Engineering and Computer Science

International Program

Faculty of Arts and Education

Faculty of Economics and Business

Master Programs

GENERAL FACILITIES

E-SERVICES