ROUGE: Mengenal 'Juri' di Balik Kemampuan Merangkum AI Seperti ChatGPT dan Gemini

Setiap hari, jutaan orang di seluruh dunia mengandalkan keajaiban Kecerdasan Buatan (AI) seperti ChatGPT dari OpenAI dan Gemini dari Google. Kita memintanya untuk merangkum artikel berita yang panjang, menyaring email yang menumpuk, atau membuat intisari dari dokumen penelitian yang padat. Dalam hitungan detik, AI tersebut menyajikan sebuah ringkasan yang seringkali koheren dan akurat. Namun, pernahkah Anda bertanya-tanya: bagaimana kita tahu bahwa ringkasan yang dibuat oleh AI itu benar-benar "bagus"?

baca Juga:Massa Buruh Turun Demo 28 Agustus di Istana-DPR, Ini Tuntutannya

Di dunia pengembangan AI, jawaban atas pertanyaan itu tidak didasarkan pada perasaan atau intuisi semata. Ada sebuah sistem, sebuah "juri" objektif yang bekerja di balik layar untuk menilai kualitas ringkasan ini. Juri ini dikenal dengan nama ROUGE.

Meskipun namanya terdengar asing, ROUGE (Recall-Oriented Understudy for Gisting Evaluation) adalah salah satu alat terpenting yang mendorong kemajuan AI dalam memahami dan menghasilkan teks. Ia adalah standar industri yang digunakan oleh para peneliti dan insinyur untuk mengukur seberapa baik model bahasa mereka dalam menangkap esensi dari sebuah dokumen. Artikel ini akan mengajak Anda untuk berkenalan lebih dekat dengan sang juri tak terlihat ini, memahami cara kerjanya, dan mengapa perannya sangat krusial bagi kualitas AI yang kita gunakan setiap hari.

Apa Sebenarnya ROUGE Itu? Kamus di Dunia AI

Pada intinya, ROUGE bukanlah sebuah AI, melainkan seperangkat metrik evaluasi. Anggap saja ROUGE sebagai sebuah sistem penilaian otomatis. Tujuannya sederhana: membandingkan ringkasan yang dihasilkan oleh mesin (misalnya, oleh Gemini) dengan satu atau lebih ringkasan "ideal" yang dibuat oleh manusia (disebut reference summaries).

Ide dasarnya adalah, ringkasan yang baik dari sebuah mesin akan memiliki banyak tumpang tindih kata dan frasa dengan ringkasan yang akan dibuat oleh seorang ahli manusia. Semakin besar tingkat tumpang tindihnya, semakin tinggi skor ROUGE yang didapat, dan secara teori, semakin baik pula kualitas ringkasan mesin tersebut.

ROUGE tidak hanya terdiri dari satu metrik, melainkan sebuah keluarga metrik, masing-masing dengan fokus penilaian yang sedikit berbeda. Para peneliti menggunakan berbagai jenis ROUGE untuk mendapatkan gambaran yang lebih komprehensif tentang performa model AI mereka.

Cara Kerja Sang Juri: Mengintip di Balik Tirai Penilaian

Meskipun konsepnya terdengar kompleks, cara kerja ROUGE sebenarnya dapat dipecah menjadi beberapa ide yang cukup intuitif. Mari kita lihat dua varian yang paling umum digunakan: ROUGE-N dan ROUGE-L.

Anggap kita punya kalimat referensi (buatan manusia): "Kucing itu duduk di atas tikar." Dan ringkasan yang dibuat oleh mesin adalah: "Seekor kucing duduk di tikar."

ROUGE-N (Menghitung Kata atau Frasa yang Sama)

Huruf 'N' di sini adalah singkatan dari n-gram, yang pada dasarnya berarti urutan 'n' kata.

ROUGE-1 mengukur tumpang tindih kata tunggal (unigram).
- Kata di referensi: {Kucing, itu, duduk, di, atas, tikar}
- Kata di ringkasan mesin: {Seekor, kucing, duduk, di, tikar}
- Kata yang sama: {kucing, duduk, di, tikar} (ada 4 kata yang tumpang tindih).
- Skor ROUGE-1 akan dihitung berdasarkan jumlah kata yang cocok ini (4) dibagi dengan jumlah total kata di ringkasan referensi (6). Ini memberikan gambaran tentang seberapa banyak "informasi kata kunci" yang berhasil ditangkap.
ROUGE-2 mengukur tumpang tindih pasangan kata (bigram). Ini lebih ketat karena urutan kata menjadi penting.
- Pasangan kata di referensi: {"Kucing itu", "itu duduk", "duduk di", "di atas", "atas tikar"}
- Pasangan kata di ringkasan mesin: {"Seekor kucing", "kucing duduk", "duduk di", "di tikar"}
- Pasangan kata yang sama: {"duduk di"} (hanya 1 pasangan yang cocok).
- Skor ROUGE-2 cenderung lebih rendah, tetapi ini memberikan indikasi yang lebih baik tentang seberapa baik AI meniru kelancaran dan struktur frasa manusia.

ROUGE-L (Mencari Kalimat Terpanjang yang Serupa)

Varian ini sedikit lebih cerdas. ROUGE-L tidak hanya menghitung kata, tetapi mencari urutan kata umum terpanjang (Longest Common Subsequence atau LCS) antara ringkasan mesin dan referensi. Dalam LCS, kata-kata tidak harus berurutan persis, tetapi harus muncul dalam urutan yang sama.

Referensi: Kucing itu duduk di atas tikar.
Mesin: Seekor kucing duduk di tikar.
LCS-nya adalah "kucing duduk di tikar".

ROUGE-L memberikan skor berdasarkan panjang urutan umum ini. Keunggulannya adalah ia dapat mengenali kesamaan struktur kalimat secara keseluruhan, bahkan jika ada beberapa kata yang ditambahkan atau dihilangkan di tengah-tengah. Ini membuatnya lebih fleksibel daripada ROUGE-N dalam menilai koherensi kalimat.

Mengapa 'Juri' Ini Penting bagi Kita sebagai Pengguna?

Mungkin Anda berpikir, "Ini semua terdengar sangat teknis, apa hubungannya denganku?" Jawabannya: sangat erat. Skor ROUGE adalah salah satu pendorong utama di balik peningkatan kualitas model AI yang kita nikmati.

Ketika para insinyur di Google atau OpenAI mengembangkan versi baru dari model bahasa mereka, mereka tidak hanya "merasa" bahwa model baru itu lebih baik. Mereka mengujinya secara kuantitatif. Mereka akan meminta model baru dan model lama untuk merangkum ribuan artikel, lalu membandingkan skor ROUGE keduanya. Jika skor ROUGE model baru secara konsisten lebih tinggi, itu adalah bukti objektif bahwa model tersebut memang telah mengalami peningkatan.

Proses evaluasi yang ketat ini menghasilkan manfaat langsung bagi kita:

Ringkasan yang Lebih Relevan: Model AI dilatih untuk memaksimalkan skor ROUGE-1, yang berarti mereka menjadi lebih baik dalam mengidentifikasi dan menyertakan kata-kata kunci terpenting dari teks asli.
Kalimat yang Lebih Enak Dibaca: Dorongan untuk meningkatkan skor ROUGE-2 dan ROUGE-L memaksa model untuk belajar menghasilkan kalimat dengan struktur yang lebih alami dan mirip manusia.
Peningkatan Berkelanjutan: Metrik seperti ROUGE memungkinkan adanya siklus umpan balik yang cepat, mempercepat laju inovasi dalam teknologi AI.

baca Juga:Program Studi S1 Sistem Informasi Universitas Teknokrat Indonesia Raih Akreditasi Unggul, Tegaskan Komitmen Hasilkan Lulusan Berkualitas

Bukan Juri yang Sempurna: Keterbatasan ROUGE

Tentu saja, ROUGE bukanlah juri yang maha tahu. Keterbatasan terbesarnya adalah ia hanya mengukur tumpang tindih leksikal (kata), bukan pemahaman semantik (makna).

Misalnya:

Referensi: "Raja Charles naik takhta."
Ringkasan Mesin 1: "Charles menjadi Raja." (Skor ROUGE rendah, tapi makna benar).
Ringkasan Mesin 2: "Raja Charles naik kuda." (Skor ROUGE lebih tinggi karena kata "Raja", "Charles", "naik" cocok, tapi makna salah total).

Kelemahan ini menunjukkan bahwa ROUGE hanyalah salah satu alat dalam kotak perkakas evaluasi AI. Para peneliti sering mengombinasikannya dengan metrik lain dan evaluasi manusia untuk mendapatkan gambaran yang lengkap.

penulis:dafa Aditya.f

About Teknokrat

Why Teknokrat?

Quality

Collaboration & Partnerships

Supporting Units

Undergraduate Programs

Master's Programs

International Program

Faculty of Engineering and Computer Science

International Program

Faculty of Arts and Education

Faculty of Economics and Business

Master Programs

GENERAL FACILITIES

E-SERVICES