AI gagal dalam tes ini, bagaimana dengan Anda? – Alberto Puliafito

7 January 2025

Kecerdasan buatan tahun 2024 berakhir dengan banyak pengumuman dan rilis alat baru dari perusahaan utama yang terlibat dalam pengembangan teknologi ini. Sesuai dengan panduan gimmick pemasaran Sam Altman, OpenAi telah menyediakan akhir yang dramatis. Perusahaan yang bahkan telah menyelenggarakan a kalender kedatangan untuk mengungkapkan beritanya satu per satu, dia mengantisipasi o3model barunya.

o3 ini belum tersedia untuk umum: hanya mereka yang meneliti keamanan sistem AI yang dapat memperolehnya akses awal.

Kami hanya tahu sedikit tentangnya o3. Dari apa yang bisa kita baca online, ini masih berdasarkan arsitektur model OpenAi lainnya. Namun yang membuatnya menarik adalah kenyataan bahwa hal itu dievaluasi oleh sebuah proyek bernama Hadiah busur. Hadiah Arc adalah hadiah satu juta dolar yang diperuntukkan bagi siapa saja yang dapat membuat model linguistik menyelesaikan beberapa tes yang disebut Arc-agi yang sangat sulit dilakukan oleh mesin.

Tes dilakukan seperti ini.

Tes 1. Ini adalah contoh tes hadiah Arc. Anda dapat mencoba menyelesaikan beberapa di antaranya Siapa. Jika Anda mengklik Siapa menemukan solusinya.

Terdapat pasangan matriks dengan berbagai ukuran. Setiap matriks terdiri dari kotak-kotak hitam dan berisi kotak-kotak berwarna yang membentuk bangun-bangun. Matriks kiri dari pasangan tersebut, yang disebut masukanadalah data awal. Matriks dari keluaran sesuai, apa yang Anda lihat di sebelah kanan, setelah panah, adalah data yang diproses menurut aturan tertentu. Lalu ada pasangan matriks terakhir: matriks masukan berisi data baru dan matriks masukan berisi data baru keluaran itu kosong. Mereka yang menjalani tes harus menyimpulkan aturan transformasi dimulai dari beberapa pasangan masukan-keluaran dan gambarkan solusinya pada matriks kosong.

Misalnya saja jika kita melihat pada sosok yang saya panggil Tes 1akumasukan 1 itu adalah matriks persegi dengan tujuh kotak hitam di setiap sisinya. Berisi dua gambar biru, terdiri dari tiga kotak kecil. Kedua bangun tersebut berbentuk huruf “L” dengan kedua ruasnya sama panjang. ITU’keluaran 1 korespondensi adalah transformasi sederhana dari dua gambar: sebuah kotak biru kecil ditambahkan ke masing-masing gambar, yang membuatnya menjadi dua kotak.

Kami mungkin sudah mengidentifikasi aturan transformasi, namun kami memerlukan konfirmasi lebih lanjut. Faktanya, itumasukan 2 dan korespondennya keluaran ikuti aturan yang sama: tiga huruf “L” biru diubah menjadi tiga kotak dengan tambahan kotak biru kecil.

Pada titik ini kami siap untuk solusinya (yang saya berikan Siapa untuk menghindari spoiler).

Apa susahnya tes ini? Mereka membutuhkan kemampuan untuk memahami konteks, menyimpulkan dan menggeneralisasi, dan kemudian menerapkan generalisasi tersebut pada kasus baru yang belum pernah terlihat sebelumnya. Ini adalah keterampilan yang kami yakini merupakan hak prerogatif manusia dan, pada kenyataannya, bagi banyak orang, tes Arc-agi mudah untuk diselesaikan. Namun orang lain menganggapnya tidak bisa dipahami.

Logikanya sama dengan tes pengukuran beberapa komponen IQ. Anda dapat melatih dan belajar menyelesaikannya karena tes tersebut tidak sepenuhnya independen dari budaya pribadi Anda, namun tes tersebut tetap memberikan beberapa informasi tentang kemampuan deduktif Anda. Dan juga kecerdasan buatan.

Tes 2. Model o3 ChatGpt tidak dapat menyelesaikan tes ini. Bisakah Anda menemukan jawaban yang benar?

Pada tahun 2019 Gpt-2 dia salah semua jawaban dari Arc-agi. Bahkan Gpt-3, pada tahun 2020, semua jawabannya salah. Pada tahun 2023 Gpt-4 memperkirakan 2 persen. Terakhir, Gpt-4o yang dipublikasikan pada tahun 2024 mencapai 5 persen jawaban benar.

Lalu datanglah pengumumano3: menurut kelompok kerja penghargaanmodel ini memperoleh hasil yang mengejutkan, yang terbaik dari semua AI yang diuji, menjawab 75 persen pertanyaan dengan benar.

Biaya kalkulasi untuk mencapai hasil ini sangat tinggi: yang kita bicarakan hanya di bawah sepuluh ribu dolar. Dengan biaya komputasi sekitar 170 kali lipat, model ini menjawab 85 persen pertanyaan dengan benar, yang merupakan ambang batas untuk memperoleh hadiah. Kecuali bahwa hadiahnya mengharuskan biaya komputasi tetap di bawah sepuluh ribu dolar, untuk juga mengevaluasi efisiensi suatu model.

Ada banyak alasan mengapa pengujian seperti Arc-agi sulit dilakukan pada mesin. Pertama-tama, itu llm mereka kesulitan mengekstrak aturan umum dari sedikit data awal. Kemudian mereka kesulitan menerapkan kesimpulan pada skenario yang belum pernah mereka lihat sebelumnya. Selain itu, kesalahan meningkat seiring dengan bertambahnya ukuran matriks, mungkin karena jumlah data yang akan diproses menjadi terlalu rumit untuk sebuah mesin: kita manusia terbantu oleh fakta bahwa kita melihat matriks tersebut. Mesin tidak melihatnya: mereka harus membuat model untuk memprosesnya. Saya telah menyiapkan penjelasan yang sedikit lebih teknis di sini.

Di dunia AI, hasil dario3 mereka disajikan, dengan agak sombong, sebagai langkah baru menuju penciptaan kecerdasan buatan secara umum. Bukan itu yang kami minati di sini. Sebaliknya, kami tertarik untuk mengamati peningkatan kinerja alat-alat ini.

Dan terus mengevaluasi secara kritis cara penyampaiannya: tanpa kemungkinan mengakses model o3instruksi internalnya, data pelatihannya, pada kenyataannya, kami tidak dapat secara independen mengkonfirmasi hasil yang diumumkan oleh hadiah Arc dan kami harus puas dengan apa yang mereka katakan, dengan deklarasi OpenAi dan sedikit data yang mereka sediakan.

Teks ini diambil dari buletin Artificiale.

Internazionale menerbitkan satu halaman surat setiap minggunya. Kami ingin tahu pendapat Anda tentang artikel ini. Kirimkan surat kepada kami di: [email protected]

Sumber

AI gagal dalam tes ini, bagaimana dengan Anda? – Alberto Puliafito

YANG TERBARU

Emmy Mengubah Aturan untuk Sutradara, Aktor Tamu

Alcaraz mengucapkan selamat kepada De Minaur atas pertunangannya… semacam itu

Anggota dewan khawatir pasar bunga Hong Kong yang terkenal akan kehilangan...

Zuckerberg mengakui terlalu banyak sensor di Instagram dan Facebook. Dia berjanji...

Kecerdasan Buatan: Ini adalah lagu terbaik Elvis Presley menurut ChatGPT

Pawai Agenda Iklim Melalui Institusi

Reacher Musim 3 – Trailer Resmi

30 pria berhubungan seks satu sama lain｜ “Pertempuran Liar” Malam Tahun...

kategori