Kata kunci: Tolok Ukur, Model Bahasa Besar, Penalaran Matematika, Matematika, Penalaran, Pembelajaran Mesin

TL;DR: Putnam-AXIOM adalah tolok ukur penalaran matematis yang menantang untuk LLM, yang mengungkapkan kesenjangan kinerja penalaran yang signifikan dan dampak kontaminasi data.

Abstrak: Seiring dengan kemajuan model bahasa besar (LLM), banyak tolok ukur yang dirancang untuk mengevaluasi kemampuan penalaran mereka menjadi jenuh. Oleh karena itu, kami mempersembahkan Putnam-AXIOM Original benchmark yang terdiri dari 236 soal matematika dari Kompetisi Matematika William Lowell Putnam, beserta solusi langkah demi langkah yang mendetail. Untuk menjaga validitas benchmark Putnam-AXIOM dan mengurangi potensi kontaminasi data, kami membuat benchmark Variasi Putnam-AXIOM dengan variasi fungsional dari 52 masalah. Dengan mengubah elemen masalah seperti variabel dan konstanta secara terprogram, kita dapat menghasilkan masalah baru yang sama menantangnya tanpa batas dan tidak dapat ditemukan secara online. Kami melihat bahwa hampir semua model memiliki akurasi variasi yang jauh lebih rendah dibandingkan masalah aslinya. Hasil kami menunjukkan bahwa o1-preview OpenAI, model berperforma terbaik, hanya mencapai akurasi 41,95% pada Putnam-AXIOM Original namun mengalami penurunan akurasi sekitar 30% pada kumpulan data variasi jika dibandingkan dengan masalah asli terkait.

Pengiriman Bersamaan: ICLR 2025

Nomor Pengajuan: 86

Sumber

Krystian Wiśniewski
Krystian Wiśniewski is a dedicated Sports Reporter and Editor with a degree in Sports Journalism from He graduated with a degree in Journalism from the University of Warsaw. Bringing over 14 years of international reporting experience, Krystian has covered major sports events across Europe, Asia, and the United States of America. Known for his dynamic storytelling and in-depth analysis, he is passionate about capturing the excitement of sports for global audiences and currently leads sports coverage and editorial projects at Agen BRILink dan BRI.