Para peneliti telah menemukan sisi buruk dari chatbot yang lebih cerdas. Meskipun model AI secara terduga menjadi lebih akurat seiring perkembangannya, mereka juga cenderung (salah) menjawab pertanyaan di luar kemampuan mereka daripada berkata, “Saya tidak tahu.” Dan manusia yang mendorong mereka cenderung menganggap remeh halusinasi mereka, sehingga menciptakan efek berantai berupa misinformasi yang meyakinkan.

“Mereka menjawab hampir semua hal akhir-akhir ini,” José Hernández-Orallo, profesor di Universitat Politecnica de Valencia, Spanyol, diberi tahu Alam“Dan itu berarti lebih benar, tetapi juga lebih salah.” Hernández-Orallo, pemimpin proyek, mengerjakan penelitian tersebut bersama rekan-rekannya di Institut Penelitian Kecerdasan Buatan Valencia di Spanyol.

Tim tersebut mempelajari tiga keluarga LLM, termasuk seri GPT OpenAI, LLaMA Meta, dan BLOOM sumber terbuka. Mereka menguji versi awal setiap model dan beralih ke model yang lebih besar dan lebih canggih — tetapi bukan yang paling canggih saat ini. Misalnya, tim tersebut memulai dengan model GPT-3 ADA OpenAI yang relatif primitif dan menguji iterasi yang mengarah ke GPT-4, yang dirilis pada Maret 2023. GPT-4o yang berusia empat bulan tidak disertakan dalam penelitian tersebut, begitu pula o1-preview yang lebih baru. Saya ingin tahu apakah tren tersebut masih berlaku pada model-model terbaru.

Para peneliti menguji setiap model pada ribuan pertanyaan tentang “aritmatika, anagram, geografi, dan sains.” Mereka juga menguji model AI pada kemampuannya untuk mengubah informasi, seperti mengurutkan daftar menurut abjad. Tim memberi peringkat pertanyaan mereka berdasarkan tingkat kesulitan yang dirasakan.

Data menunjukkan bahwa porsi jawaban salah yang diberikan chatbot (alih-alih menghindari pertanyaan sama sekali) meningkat seiring dengan pertumbuhan model. Jadi, AI mirip seperti seorang profesor yang, saat menguasai lebih banyak mata pelajaran, semakin yakin bahwa ia memiliki jawaban terbaik untuk semua mata pelajaran tersebut.

Yang lebih memperumit masalah adalah manusia yang memberi isyarat kepada chatbot dan membaca jawaban mereka. Para peneliti menugaskan para relawan untuk menilai keakuratan jawaban bot AI, dan mereka menemukan bahwa bot AI “secara keliru mengklasifikasi jawaban yang tidak akurat sebagai jawaban yang akurat secara mengejutkan.” Kisaran jawaban yang salah yang secara keliru dianggap benar oleh para relawan biasanya berkisar antara 10 dan 40 persen.

“Manusia tidak mampu mengawasi model-model ini,” simpul Hernández-Orallo.

Tim peneliti merekomendasikan pengembang AI mulai meningkatkan kinerja untuk pertanyaan mudah dan memprogram chatbot agar menolak menjawab pertanyaan rumit. “Kita perlu manusia untuk memahami: ‘Saya dapat menggunakannya di area ini, dan saya tidak boleh menggunakannya di area itu,’” kata Hernández-Orallo Alam.

Ini adalah saran yang bermaksud baik yang mungkin masuk akal di dunia yang ideal. Namun, kecil kemungkinan perusahaan AI akan menurutinya. Chatbot yang lebih sering mengatakan “Saya tidak tahu” kemungkinan akan dianggap kurang canggih atau berharga, yang menyebabkan penggunaan yang lebih sedikit — dan lebih sedikit uang bagi perusahaan yang membuat dan menjualnya. Jadi, sebagai gantinya, kita mendapatkan peringatan dengan huruf kecil bahwa “ChatGPT dapat membuat kesalahan” dan “Gemini dapat menampilkan info yang tidak akurat.”

Itu berarti kita harus menghindari mempercayai dan menyebarkan informasi keliru yang dapat merugikan diri sendiri atau orang lain. Demi keakuratan, periksa fakta jawaban chatbot sialan Anda, demi Tuhan.

Kamu bisa membaca studi lengkap tim di dalam Alam.