Ketika ROUGE Tak Lagi Cukup: Tantangan Mengevaluasi Ringkasan AI di Era LLM dan Masa Depan Metrik NLP

Selama lebih dari dua dekade, metrik ROUGE (Recall-Oriented Understudy for Gisting Evaluation) telah menjadi pilar utama dalam dunia Natural Language Processing (NLP). Ia adalah penggaris andalan, "juri" objektif yang digunakan oleh para peneliti untuk mengukur kualitas ringkasan teks yang dihasilkan oleh mesin. Dengan metodenya yang sederhana—menghitung tumpang tindih kata dan frasa antara ringkasan mesin dan referensi manusia—ROUGE telah membantu kita mengukur kemajuan dari model-model awal hingga sistem yang lebih canggih. Ia adalah salah satu alasan utama mengapa AI peringkas teks hari ini begitu berguna.

baca Juga:Dasco soal Demo DPR 25 Agustus Kemarin: Dijamin Undang-Undang

Namun, lanskap AI telah mengalami gempa tektonik. Munculnya Large Language Models (LLM) seperti seri GPT dari OpenAI, Gemini dari Google, dan model-model lainnya telah mengubah permainan secara fundamental. Model-model ini tidak hanya merangkai kata; mereka menunjukkan tingkat kefasihan, pemahaman konteks, dan kemampuan parafrasa yang belum pernah terjadi sebelumnya. Paradoksnya, kecanggihan inilah yang kini mulai menelanjangi keterbatasan ROUGE.

Di era LLM yang baru dan berani ini, kita dihadapkan pada sebuah pertanyaan krusial: apakah "juri" lama kita masih mampu menilai karya-karya jenius yang baru? Artikel ini akan membahas mengapa ROUGE, sang standar emas yang telah lama berjasa, mulai tak lagi cukup, dan bagaimana para ilmuwan AI kini berlomba untuk menciptakan generasi baru metrik evaluasi yang mampu mengimbangi kecerdasan mesin yang mereka ciptakan.

ROUGE: Standar Emas yang Mulai Menua

Untuk memahami mengapa perubahan ini diperlukan, kita harus mengakui kekuatan sekaligus kelemahan fundamental ROUGE. Kekuatannya terletak pada kesederhanaan dan efisiensinya. ROUGE cepat, mudah dihitung, dan menyediakan skor objektif yang memungkinkan perbandingan apple-to-apple antara model yang berbeda. Inilah yang membuatnya sangat diperlukan untuk siklus pengembangan AI yang cepat.

Namun, di balik efisiensinya, terdapat sebuah kelemahan fatal yang oleh para peneliti disebut sebagai "kebutaan semantik". ROUGE tidak memahami makna. Ia hanya peduli pada satu hal: apakah kata-kata yang sama muncul di kedua teks.

Mari kita lihat contoh sederhana:

Ringkasan Referensi (Manusia): "Perekonomian negara menunjukkan pertumbuhan yang kuat pada kuartal terakhir."
Ringkasan LLM (Sangat Baik): "Ekonomi bangsa mengalami ekspansi signifikan dalam tiga bulan terakhir."
Ringkasan Mesin Lama (Buruk): "Pertumbuhan negara pada kuartal terakhir menunjukkan perekonomian yang kuat."

Bagi manusia, ringkasan LLM jelas superior. Ia menangkap makna yang sama persis dengan kosa kata yang lebih kaya. Namun, bagi ROUGE, ringkasan ini adalah sebuah kegagalan karena hampir tidak ada kata yang tumpang tindih secara persis. Sebaliknya, ringkasan mesin lama, yang hanya mengacak urutan kata dari referensi, akan mendapatkan skor ROUGE yang jauh lebih tinggi. Di sinilah letak masalahnya: ROUGE menghargai peniruan leksikal, bukan pemahaman konseptual.

Tantangan Era LLM: Ketika Kefasihan Melampaui Tumpang Tindih Leksikal

Sebelum era LLM, kelemahan ROUGE ini bisa ditoleransi. Model-model lama memang tidak begitu kreatif; ringkasan terbaik yang bisa mereka hasilkan sering kali berupa ekstraksi kalimat-kalimat penting dari sumber aslinya. Dalam skenario ini, tumpang tindih kata adalah proksi yang cukup baik untuk kualitas.

LLM mengubah segalanya. Kemampuan mereka yang luar biasa dalam parafrasa dan generasi abstrak berarti mereka dapat (dan sering kali) menghasilkan ringkasan yang sangat baik dengan menggunakan kosa kata yang sama sekali berbeda dari teks sumber atau referensi. Mereka tidak lagi hanya "mengekstrak"; mereka "memahami" dan "menulis ulang".

Ini menciptakan beberapa tantangan baru bagi evaluasi:

Keragaman Respons: Untuk satu artikel, sebuah LLM dapat menghasilkan lima ringkasan berbeda yang semuanya valid dan akurat secara semantik. ROUGE, yang terikat pada satu atau beberapa referensi statis, akan menghukum keragaman dan kreativitas ini.
Penilaian Koherensi dan Alur: ROUGE-L dapat menangkap struktur kalimat dasar, tetapi ia tidak dapat menilai apakah sebuah paragraf memiliki alur naratif yang logis atau apakah argumennya disajikan secara koheren. LLM sangat pandai dalam hal ini, tetapi ROUGE tidak dapat mengukurnya.
Deteksi Halusinasi: Tantangan terbesar dari LLM adalah kecenderungan mereka untuk "berhalusinasi" atau mengarang fakta. ROUGE sama sekali tidak memiliki mekanisme untuk memeriksa kebenaran faktual dari sebuah ringkasan. Sebuah ringkasan bisa mendapatkan skor ROUGE yang tinggi sambil menyebarkan informasi yang salah.

Singkatnya, kita kini memiliki AI yang kemampuannya dinilai menggunakan penggaris dari era sebelumnya. Penggaris itu masih bisa mengukur panjang, tetapi kita sekarang perlu menilai warna, tekstur, dan kedalaman.

baca Juga:UTI Gelar PKM Internasional Berkolaborasi Dengan International Islamic University Malaysia

Di Luar ROUGE: Metrik-Metrik NLP Generasi Berikutnya

Menyadari keterbatasan ini, komunitas riset NLP telah bekerja keras untuk mengembangkan metrik evaluasi baru yang dapat melihat melampaui kata-kata dan masuk ke ranah makna.

BERTScore: Alih-alih mencocokkan kata, BERTScore menggunakan word embeddings dari model seperti BERT. Embeddings adalah representasi numerik dari makna sebuah kata dalam konteks. BERTScore menghitung kesamaan antara embeddings kata-kata di ringkasan kandidat dan referensi. Ini memungkinkannya untuk mengenali bahwa "pertumbuhan" dan "ekspansi", atau "negara" dan "bangsa", memiliki makna yang serupa, bahkan jika tulisannya berbeda.
MoverScore: Ini adalah langkah lebih lanjut dari BERTScore. Ia memandang kalimat sebagai "awan titik" embeddings dan menghitung "jarak kerja" minimum yang diperlukan untuk memindahkan kata-kata dari satu kalimat agar cocok dengan makna kalimat lainnya. Ini memberikan ukuran yang lebih bernuansa tentang kesamaan semantik.
Evaluasi Berbasis AI (AI-based Evaluation): Pendekatan yang paling mutakhir adalah menggunakan LLM lain yang kuat sebagai "juri" itu sendiri. Dalam metode ini, sebuah LLM evaluator (misalnya, GPT-4) diberikan teks sumber, ringkasan referensi, dan ringkasan kandidat, lalu diminta untuk memberikan skor pada berbagai dimensi seperti relevansi, koherensi, konsistensi, dan kefasihan. Meskipun masih dalam tahap penelitian, pendekatan ini menjanjikan evaluasi yang jauh lebih holistik dan mirip manusia.

penulis:dafa Aditya.f

About Teknokrat

Why Teknokrat?

Quality

Collaboration & Partnerships

Supporting Units

Undergraduate Programs

Master's Programs

International Program

Faculty of Engineering and Computer Science

International Program

Faculty of Arts and Education

Faculty of Economics and Business

Master Programs

GENERAL FACILITIES

E-SERVICES

Ketika ROUGE Tak Lagi Cukup: Tantangan Mengevaluasi Ringkasan AI di Era LLM dan Masa Depan Metrik NLP

ROUGE: Standar Emas yang Mulai Menua

Tantangan Era LLM: Ketika Kefasihan Melampaui Tumpang Tindih Leksikal

Di Luar ROUGE: Metrik-Metrik NLP Generasi Berikutnya