Saya sering merasa tidak nyaman ketika LLM (Model Bahasa Besar) diminta mengutip Alkitab. Meskipun mereka dapat memberikan diskusi yang mendalam tentang iman, kecenderungan mereka untuk berhalusinasi menimbulkan kekhawatiran ketika berhadapan dengan kitab suci, yang kita anggap sebagai Firman Tuhan yang diilhami.

Untuk mengeksplorasi kekhawatiran ini, saya membuat tolok ukur untuk mengevaluasi seberapa akurat LLM dapat mengingat tulisan suci kata demi kata. Berikut rincian metodologi saya dan hasil tesnya.

Metodologi

Untuk memastikan evaluasi yang konsisten dan adil, saya menguji setiap model menggunakan enam skenario yang dirancang untuk mengukur kemampuan mereka dalam mengingat kitab suci secara akurat. Bagi pembaca yang tertarik dengan detail teknisnya, kode sumber pengujian tersedia di sini. Semua pengujian dilakukan dengan pengaturan suhu 0, dan saya telah memberikan kelonggaran pada model dengan membuat kotak pemeriksaan izin dan spasi tidak sensitif.

Suhu 0 memastikan model menghasilkan respons yang paling mungkin secara statistik pada setiap langkah, meminimalkan kreativitas atau variabilitas dan memprioritaskan akurasi. Pendekatan ini sangat penting ketika mengevaluasi bahan referensi tetap seperti Alkitab, yang mengutamakan ketepatan kata.

Model Lulus
Hubungi 3.1 405B
Nyala api 3.1 70B
Hubungi 3.1 8B
Nyala api 3,3 70B ⚠️
GPT 4o
GPT 4omini
Gemini 1.5 Pro
Gemini 1.5 Kilat
Gemini 2.0 Flash
Claude 3.5 Haiku
Claude 3.5 Soneta

Ketika meminta seorang model untuk mengingat Yohanes 3:16 dalam terjemahan NIV, satu-satunya model yang gagal mengingat secara akurat ayat kata demi kata adalah Llama 3.3 70B. Itu hanya sedikit ketidakcocokan terjemahan, dengan mengingat “anak tunggal” dimana ayat sebenarnya dalam NIV tidak memasukkan yang diperanakkan, meskipun ada dalam terjemahan lain.

Tes 2: Ingatan Ayat yang Tidak Jelas

Model Lulus
Hubungi 3.1 405B
Nyala api 3.1 70B ⚠️
Hubungi 3.1 8B
Nyala api 3,3 70B
GPT 4o
GPT 4omini ⚠️
Gemini 1.5 Pro ⚠️
Gemini 1.5 Kilat ⚠️
Gemini 2.0 Flash ⚠️
Claude 3.5 Haiku ⚠️
Claude 3.5 Soneta

Banyak model kesulitan mengingat Obaja 1:16 NIV kata demi kata, sering kali mencampuradukkan kata-kata tersebut dengan terjemahan lain. Untuk kasus-kasus ini, saya telah menandainya sebagai sebagian untuk mengingat dengan benar ayat di dalamnya beberapa terjemahan, meskipun bukan terjemahan spesifik yang diminta. Model yang jelas berhasil tampaknya adalah model yang sangat besar, 405B untuk Llama dan GPT 4o dan Claude 3.5 Sonnet.

Tes 3: Lanjutan Ayat

Model Lulus
Hubungi 3.1 405B
Nyala api 3.1 70B
Hubungi 3.1 8B
Nyala api 3,3 70B
GPT 4o
GPT 4omini ⚠️
Gemini 1.5 Pro
Gemini 1.5 Kilat
Gemini 2.0 Flash
Claude 3.5 Haiku ⚠️
Claude 3.5 Soneta

Ketika mengutip model 2 Tawarikh 11:13 (tetapi tanpa menentukan secara spesifik di mana ayat tersebut ditemukan) dan memintanya untuk segera membuat ayat berikutnya, kami mendapatkan hasil yang jauh lebih beragam. Banyak model berukuran sedang hingga besar yang menjawab hal ini dengan benar, tetapi model yang lebih kecil benar-benar berhalusinasi sebagian atau seluruh ayatnya. Claude 3.5 Haiku hampir mengingat ayat tersebut, namun menyebut orang Lewi sebagai “mereka”, yang tidak secara eksplisit merupakan terjemahan dalam terjemahan yang lebih terkenal dan tampaknya menjadi model yang menggantikan maksud dari kata tersebut dan bukan yang sebenarnya.

Tes 4: Ingatan Blok Ayat

Model Lulus
Hubungi 3.1 405B
Nyala api 3.1 70B
Hubungi 3.1 8B
Nyala api 3,3 70B
GPT 4o
GPT 4omini
Gemini 1.5 Pro
Gemini 1.5 Kilat ⚠️
Gemini 2.0 Flash
Claude 3.5 Haiku ⚠️
Claude 3.5 Soneta

Ketika diminta untuk mengingat Ratapan pasal 3 ayat 19 sampai 24, para model melakukannya dengan sangat baik. Hanya model terkecil, Llama 3.1 8B yang langsung gagal di sini, malah mengingatkan awal bab ini. Kedua peringatan tersebut hanyalah sedikit ketidakcocokan terjemahan pada beberapa kata, namun inti dari ayat tersebut tetap dipertahankan.

Tes 5: Pencarian Berbasis Kueri

Model Lulus
Hubungi 3.1 405B
Nyala api 3.1 70B
Hubungi 3.1 8B
Nyala api 3,3 70B
GPT 4o
GPT 4omini
Gemini 1.5 Pro
Gemini 1.5 Kilat
Gemini 2.0 Flash
Claude 3.5 Haiku
Claude 3.5 Soneta

Menanyakan kepada para model, “Apa ayat dalam Alkitab tentang Bumi yang dipenuhi dengan pengetahuan tentang kemuliaan Tuhan?”, mereka semua berhasil mengingat bahwa itu adalah Habakuk 2:14. Pencarian ayat jelas merupakan pilihan yang kuat, bahkan dalam model yang lebih kecil.

Tes 6: Penarikan Seluruh Bab

Model Lulus
Hubungi 3.1 405B
Api 3.1 70B
Hubungi 3.1 8B
Nyala api 3,3 70B
GPT 4o
GPT 4omini
Gemini 1.5 Pro
Gemini 1.5 Kilat
Gemini 2.0 Flash
Claude 3.5 Haiku
Claude 3.5 Soneta

Ketika menanyakan keseluruhan isi Roma 6 dalam terjemahan KJV, hampir semua model mengingat seluruh 23 ayat dengan akurat. Bahkan kasus Llama 3.1 8B yang gagal mengingat lebih dari 98% kata dengan benar, dengan hanya 9 kata yang salah.

Kesimpulan

Jika Anda benar-benar ingin bersandar pada LLM untuk memberi Anda ayat-ayat Alkitab terjemahan populer yang akurat secara tekstual, Anda benar-benar harus bersandar pada model jumlah parameter yang lebih tinggi (yaitu lebih besar). Ini termasuk model seperti Llama 405B, OpenAI GPT 4o dan Claude Sonnet yang semuanya memiliki skor sempurna. Model yang lebih kecil (kisaran 7B) sering kali mencampuradukkan terjemahan, dan dalam beberapa kasus bahkan mencampuradukkan atau berhalusinasi ayat sama sekali. Model berukuran sedang (kisaran 70B) sering kali secara akurat mempertahankan maksud dari ayat-ayat tersebut, meskipun ayat tersebut mungkin merupakan representasi beberapa terjemahan yang rusak, dan dalam beberapa kasus diparafrasekan sedikit oleh LLM.

Anda tentu saja masih dapat menggunakan model diskusi yang lebih kecil yang merujuk pada kitab suci berdasarkan Buku/Bab/Ayat, namun penting untuk bersandar pada salinan Alkitab yang sebenarnya untuk mendapatkan teks yang benar dalam kasus ini.

Di masa depan, kita mungkin akan melihat model-model kecil berkinerja lebih baik pada tolok ukur ini, namun tentunya ada batasan mengenai seberapa banyak informasi yang dapat dikodekan ke dalam model-model kecil tersebut.

Untuk hasil pengujian selengkapnya, lihat file hasil di sini, termasuk petunjuk mentah untuk setiap pengujian. Jika Anda merasa saya melewatkan ujian penting, silakan kirimkan masalah di GitHub.

Sumber

Krystian Wiśniewski
Krystian Wiśniewski is a dedicated Sports Reporter and Editor with a degree in Sports Journalism from He graduated with a degree in Journalism from the University of Warsaw. Bringing over 14 years of international reporting experience, Krystian has covered major sports events across Europe, Asia, and the United States of America. Known for his dynamic storytelling and in-depth analysis, he is passionate about capturing the excitement of sports for global audiences and currently leads sports coverage and editorial projects at Agen BRILink dan BRI.