Saya sering merasa tidak nyaman ketika LLM (Model Bahasa Besar) diminta mengutip Alkitab. Meskipun mereka dapat memberikan diskusi yang mendalam tentang iman, kecenderungan mereka untuk berhalusinasi menimbulkan kekhawatiran ketika berhadapan dengan kitab suci, yang kita anggap sebagai Firman Tuhan yang diilhami.
Untuk mengeksplorasi kekhawatiran ini, saya membuat tolok ukur untuk mengevaluasi seberapa akurat LLM dapat mengingat tulisan suci kata demi kata. Berikut rincian metodologi saya dan hasil tesnya.
Metodologi
Untuk memastikan evaluasi yang konsisten dan adil, saya menguji setiap model menggunakan enam skenario yang dirancang untuk mengukur kemampuan mereka dalam mengingat kitab suci secara akurat. Bagi pembaca yang tertarik dengan detail teknisnya, kode sumber pengujian tersedia di sini. Semua pengujian dilakukan dengan pengaturan suhu 0, dan saya telah memberikan kelonggaran pada model dengan membuat kotak pemeriksaan izin dan spasi tidak sensitif.
Suhu 0 memastikan model menghasilkan respons yang paling mungkin secara statistik pada setiap langkah, meminimalkan kreativitas atau variabilitas dan memprioritaskan akurasi. Pendekatan ini sangat penting ketika mengevaluasi bahan referensi tetap seperti Alkitab, yang mengutamakan ketepatan kata.
Tes 1: Penarikan Kitab Suci yang Populer
Model | Lulus |
---|---|
Hubungi 3.1 405B | ✅ |
Nyala api 3.1 70B | ✅ |
Hubungi 3.1 8B | ✅ |
Nyala api 3,3 70B | ⚠️ |
GPT 4o | ✅ |
GPT 4omini | ✅ |
Gemini 1.5 Pro | ✅ |
Gemini 1.5 Kilat | ✅ |
Gemini 2.0 Flash | ✅ |
Claude 3.5 Haiku | ✅ |
Claude 3.5 Soneta | ✅ |
Ketika meminta seorang model untuk mengingat Yohanes 3:16 dalam terjemahan NIV, satu-satunya model yang gagal mengingat secara akurat ayat kata demi kata adalah Llama 3.3 70B. Itu hanya sedikit ketidakcocokan terjemahan, dengan mengingat “anak tunggal” dimana ayat sebenarnya dalam NIV tidak memasukkan yang diperanakkan, meskipun ada dalam terjemahan lain.
Tes 2: Ingatan Ayat yang Tidak Jelas
Model | Lulus |
---|---|
Hubungi 3.1 405B | ✅ |
Nyala api 3.1 70B | ⚠️ |
Hubungi 3.1 8B | ❌ |
Nyala api 3,3 70B | ❌ |
GPT 4o | ✅ |
GPT 4omini | ⚠️ |
Gemini 1.5 Pro | ⚠️ |
Gemini 1.5 Kilat | ⚠️ |
Gemini 2.0 Flash | ⚠️ |
Claude 3.5 Haiku | ⚠️ |
Claude 3.5 Soneta | ✅ |
Banyak model kesulitan mengingat Obaja 1:16 NIV kata demi kata, sering kali mencampuradukkan kata-kata tersebut dengan terjemahan lain. Untuk kasus-kasus ini, saya telah menandainya sebagai sebagian untuk mengingat dengan benar ayat di dalamnya beberapa terjemahan, meskipun bukan terjemahan spesifik yang diminta. Model yang jelas berhasil tampaknya adalah model yang sangat besar, 405B untuk Llama dan GPT 4o dan Claude 3.5 Sonnet.
Tes 3: Lanjutan Ayat
Model | Lulus |
---|---|
Hubungi 3.1 405B | ✅ |
Nyala api 3.1 70B | ✅ |
Hubungi 3.1 8B | ❌ |
Nyala api 3,3 70B | ✅ |
GPT 4o | ✅ |
GPT 4omini | ⚠️ |
Gemini 1.5 Pro | ✅ |
Gemini 1.5 Kilat | ❌ |
Gemini 2.0 Flash | ✅ |
Claude 3.5 Haiku | ⚠️ |
Claude 3.5 Soneta | ✅ |
Ketika mengutip model 2 Tawarikh 11:13 (tetapi tanpa menentukan secara spesifik di mana ayat tersebut ditemukan) dan memintanya untuk segera membuat ayat berikutnya, kami mendapatkan hasil yang jauh lebih beragam. Banyak model berukuran sedang hingga besar yang menjawab hal ini dengan benar, tetapi model yang lebih kecil benar-benar berhalusinasi sebagian atau seluruh ayatnya. Claude 3.5 Haiku hampir mengingat ayat tersebut, namun menyebut orang Lewi sebagai “mereka”, yang tidak secara eksplisit merupakan terjemahan dalam terjemahan yang lebih terkenal dan tampaknya menjadi model yang menggantikan maksud dari kata tersebut dan bukan yang sebenarnya.
Tes 4: Ingatan Blok Ayat
Model | Lulus |
---|---|
Hubungi 3.1 405B | ✅ |
Nyala api 3.1 70B | ✅ |
Hubungi 3.1 8B | ❌ |
Nyala api 3,3 70B | ✅ |
GPT 4o | ✅ |
GPT 4omini | ✅ |
Gemini 1.5 Pro | ✅ |
Gemini 1.5 Kilat | ⚠️ |
Gemini 2.0 Flash | ✅ |
Claude 3.5 Haiku | ⚠️ |
Claude 3.5 Soneta | ✅ |
Ketika diminta untuk mengingat Ratapan pasal 3 ayat 19 sampai 24, para model melakukannya dengan sangat baik. Hanya model terkecil, Llama 3.1 8B yang langsung gagal di sini, malah mengingatkan awal bab ini. Kedua peringatan tersebut hanyalah sedikit ketidakcocokan terjemahan pada beberapa kata, namun inti dari ayat tersebut tetap dipertahankan.
Tes 5: Pencarian Berbasis Kueri
Model | Lulus |
---|---|
Hubungi 3.1 405B | ✅ |
Nyala api 3.1 70B | ✅ |
Hubungi 3.1 8B | ✅ |
Nyala api 3,3 70B | ✅ |
GPT 4o | ✅ |
GPT 4omini | ✅ |
Gemini 1.5 Pro | ✅ |
Gemini 1.5 Kilat | ✅ |
Gemini 2.0 Flash | ✅ |
Claude 3.5 Haiku | ✅ |
Claude 3.5 Soneta | ✅ |
Menanyakan kepada para model, “Apa ayat dalam Alkitab tentang Bumi yang dipenuhi dengan pengetahuan tentang kemuliaan Tuhan?”, mereka semua berhasil mengingat bahwa itu adalah Habakuk 2:14. Pencarian ayat jelas merupakan pilihan yang kuat, bahkan dalam model yang lebih kecil.
Tes 6: Penarikan Seluruh Bab
Model | Lulus |
---|---|
Hubungi 3.1 405B | ✅ |
Api 3.1 70B | ✅ |
Hubungi 3.1 8B | ❌ |
Nyala api 3,3 70B | ✅ |
GPT 4o | ✅ |
GPT 4omini | ✅ |
Gemini 1.5 Pro | ✅ |
Gemini 1.5 Kilat | ✅ |
Gemini 2.0 Flash | ✅ |
Claude 3.5 Haiku | ✅ |
Claude 3.5 Soneta | ✅ |
Ketika menanyakan keseluruhan isi Roma 6 dalam terjemahan KJV, hampir semua model mengingat seluruh 23 ayat dengan akurat. Bahkan kasus Llama 3.1 8B yang gagal mengingat lebih dari 98% kata dengan benar, dengan hanya 9 kata yang salah.
Kesimpulan
Jika Anda benar-benar ingin bersandar pada LLM untuk memberi Anda ayat-ayat Alkitab terjemahan populer yang akurat secara tekstual, Anda benar-benar harus bersandar pada model jumlah parameter yang lebih tinggi (yaitu lebih besar). Ini termasuk model seperti Llama 405B, OpenAI GPT 4o dan Claude Sonnet yang semuanya memiliki skor sempurna. Model yang lebih kecil (kisaran 7B) sering kali mencampuradukkan terjemahan, dan dalam beberapa kasus bahkan mencampuradukkan atau berhalusinasi ayat sama sekali. Model berukuran sedang (kisaran 70B) sering kali secara akurat mempertahankan maksud dari ayat-ayat tersebut, meskipun ayat tersebut mungkin merupakan representasi beberapa terjemahan yang rusak, dan dalam beberapa kasus diparafrasekan sedikit oleh LLM.
Anda tentu saja masih dapat menggunakan model diskusi yang lebih kecil yang merujuk pada kitab suci berdasarkan Buku/Bab/Ayat, namun penting untuk bersandar pada salinan Alkitab yang sebenarnya untuk mendapatkan teks yang benar dalam kasus ini.
Di masa depan, kita mungkin akan melihat model-model kecil berkinerja lebih baik pada tolok ukur ini, namun tentunya ada batasan mengenai seberapa banyak informasi yang dapat dikodekan ke dalam model-model kecil tersebut.
Untuk hasil pengujian selengkapnya, lihat file hasil di sini, termasuk petunjuk mentah untuk setiap pengujian. Jika Anda merasa saya melewatkan ujian penting, silakan kirimkan masalah di GitHub.