Tidak dapat disangkal bahwa AI masih memiliki beberapa momen yang tidak dapat diandalkan, namun diharapkan setidaknya evaluasinya akurat. Namun, minggu lalu Google diduga menginstruksikan pekerja kontrak yang mengevaluasi Gemini untuk tidak melewatkan perintah apa pun, terlepas dari keahlian mereka. TechCrunch.dll laporan berdasarkan panduan internal yang dilihatnya. Google membagikan pratinjau Gemini 2.0 awal bulan ini.
Google dilaporkan menginstruksikan GlobalLogic, sebuah perusahaan outsourcing yang kontraktornya mengevaluasi keluaran yang dihasilkan AI, untuk tidak meminta pengulas melewatkan perintah di luar keahlian mereka. Sebelumnya, kontraktor dapat memilih untuk melewatkan pertanyaan apa pun yang bukan merupakan keahlian mereka – seperti bertanya kepada dokter tentang undang-undang. Pedoman tersebut menyatakan, “Jika Anda tidak memiliki keahlian penting (misalnya pengkodean, matematika) untuk menilai permintaan ini, silakan lewati tugas ini.”
Kini, para kontraktor diduga telah diinstruksikan, “Anda tidak boleh melewatkan perintah yang memerlukan pengetahuan domain khusus” dan bahwa mereka harus “menilai bagian dari perintah yang Anda pahami” sambil menambahkan catatan bahwa itu bukan bidang yang mereka kuasai. Rupanya, satu-satunya saat kontrak dapat dilewati saat ini adalah jika sebagian besar informasi hilang atau jika terdapat konten berbahaya yang memerlukan formulir persetujuan khusus untuk evaluasi.
Salah satu kontraktor dengan tepat menanggapi perubahan tersebut dengan menyatakan, “Saya pikir tujuan dari melewatkan ini adalah untuk meningkatkan akurasi dengan memberikannya kepada orang yang lebih baik?”
Tak lama setelah artikel ini pertama kali diterbitkan, Google memberikan pernyataan berikut kepada Engadget: “Penilai melakukan berbagai tugas di berbagai produk dan platform Google. Mereka memberikan masukan yang berharga tidak hanya mengenai isi jawaban, namun juga gaya, format, dan faktor lainnya. Penilaian yang mereka berikan tidak berdampak langsung pada algoritme kami, namun jika digabungkan, merupakan titik data yang berguna untuk membantu kami mengukur seberapa baik sistem kami bekerja.”
Seorang juru bicara Google juga mencatat bahwa bahasa baru ini tidak serta merta menyebabkan perubahan pada akurasi Gemini, karena mereka meminta penilai untuk secara spesifik menilai bagian dari perintah yang mereka pahami. Hal ini dapat berupa memberikan umpan balik untuk hal-hal seperti masalah pemformatan meskipun penilai tidak memiliki keahlian khusus dalam bidang tersebut. Perusahaan juga menunjuk ke rilis benchmark FACTS Grounding minggu ini yang dapat memeriksa tanggapan LLM untuk memastikan “yang tidak hanya akurat secara faktual sehubungan dengan masukan yang diberikan, namun juga cukup rinci untuk memberikan jawaban yang memuaskan atas pertanyaan pengguna.”
Pembaruan, 19 Desember 2024, 11:23 ET: Cerita ini telah diperbarui dengan pernyataan dari Google dan detail lebih lanjut tentang cara kerja sistem peringkatnya.