Kata kunci: Tolok Ukur, Model Bahasa Besar, Penalaran Matematika, Matematika, Penalaran, Pembelajaran Mesin
TL;DR: Putnam-AXIOM adalah tolok ukur penalaran matematis yang menantang untuk LLM, yang mengungkapkan kesenjangan kinerja penalaran yang signifikan dan dampak kontaminasi data.
Abstrak: Seiring dengan kemajuan model bahasa besar (LLM), banyak tolok ukur yang dirancang untuk mengevaluasi kemampuan penalaran mereka menjadi jenuh. Oleh karena itu, kami mempersembahkan Putnam-AXIOM Original benchmark yang terdiri dari 236 soal matematika dari Kompetisi Matematika William Lowell Putnam, beserta solusi langkah demi langkah yang mendetail. Untuk menjaga validitas benchmark Putnam-AXIOM dan mengurangi potensi kontaminasi data, kami membuat benchmark Variasi Putnam-AXIOM dengan variasi fungsional dari 52 masalah. Dengan mengubah elemen masalah seperti variabel dan konstanta secara terprogram, kita dapat menghasilkan masalah baru yang sama menantangnya tanpa batas dan tidak dapat ditemukan secara online. Kami melihat bahwa hampir semua model memiliki akurasi variasi yang jauh lebih rendah dibandingkan masalah aslinya. Hasil kami menunjukkan bahwa o1-preview OpenAI, model berperforma terbaik, hanya mencapai akurasi 41,95% pada Putnam-AXIOM Original namun mengalami penurunan akurasi sekitar 30% pada kumpulan data variasi jika dibandingkan dengan masalah asli terkait.
Pengiriman Bersamaan: ICLR 2025
Nomor Pengajuan: 86