Home Olahraga Putnam-AXIOM: Tolok Ukur Fungsional dan Statis untuk Mengukur Penalaran Matematis Tingkat Tinggi

Olahraga

Putnam-AXIOM: Tolok Ukur Fungsional dan Statis untuk Mengukur Penalaran Matematis Tingkat Tinggi

1 January 2025

Kata kunci: Tolok Ukur, Model Bahasa Besar, Penalaran Matematika, Matematika, Penalaran, Pembelajaran Mesin

TL;DR: Putnam-AXIOM adalah tolok ukur penalaran matematis yang menantang untuk LLM, yang mengungkapkan kesenjangan kinerja penalaran yang signifikan dan dampak kontaminasi data.

Abstrak: Seiring dengan kemajuan model bahasa besar (LLM), banyak tolok ukur yang dirancang untuk mengevaluasi kemampuan penalaran mereka menjadi jenuh. Oleh karena itu, kami mempersembahkan Putnam-AXIOM Original benchmark yang terdiri dari 236 soal matematika dari Kompetisi Matematika William Lowell Putnam, beserta solusi langkah demi langkah yang mendetail. Untuk menjaga validitas benchmark Putnam-AXIOM dan mengurangi potensi kontaminasi data, kami membuat benchmark Variasi Putnam-AXIOM dengan variasi fungsional dari 52 masalah. Dengan mengubah elemen masalah seperti variabel dan konstanta secara terprogram, kita dapat menghasilkan masalah baru yang sama menantangnya tanpa batas dan tidak dapat ditemukan secara online. Kami melihat bahwa hampir semua model memiliki akurasi variasi yang jauh lebih rendah dibandingkan masalah aslinya. Hasil kami menunjukkan bahwa o1-preview OpenAI, model berperforma terbaik, hanya mencapai akurasi 41,95% pada Putnam-AXIOM Original namun mengalami penurunan akurasi sekitar 30% pada kumpulan data variasi jika dibandingkan dengan masalah asli terkait.

Pengiriman Bersamaan: ICLR 2025

Nomor Pengajuan: 86

Sumber

Putnam-AXIOM: Tolok Ukur Fungsional dan Statis untuk Mengukur Penalaran Matematis Tingkat Tinggi

YANG TERBARU

Brisbane International SF: Jiri Lehecka kalah (2) Grigor Dimitrov 6-4 4-4...

Polisi Amerika menyerang juara dunia 100m itu dengan mengejutkan

Pemuda pendiam itu menjadi misteri di Rumah Sakit Mabes Daerah, Dera...

Kebakaran Dini Hari Hancurkan Toko, Properti Di Ibadan

Ulasan Editor Kecantikan tentang Tongkat Keriting Kreatif Kurva GHD

Guardiola disalahkan atas kemerosotan Man City

Seorang pria tewas dalam kebakaran di Blacktown

Keluarga Gauteng diselamatkan setelah disapu untuk melihat di Jongensfontein

kategori