(Dikirim pada 16 Des 2024 (v1), terakhir direvisi 17 Des 2024 (versi ini, v2))
Lihat PDF makalah berjudul No More Adam: Learning Rate Scaling at Initialization is All You Need, oleh Minghao Xu dan 3 penulis lainnya
Lihat PDF
Abstrak:Dalam karya ini, kami mempertanyakan perlunya metode gradien adaptif untuk melatih jaringan saraf dalam. SGD-SaI adalah peningkatan sederhana namun efektif untuk penurunan gradien stokastik dengan momentum (SGDM). SGD-SaI melakukan Penskalaan kecepatan pembelajaran saat Inisialisasi (SaI) ke grup parameter berbeda, dipandu oleh rasio gradien signal-to-noise (g-SNR) masing-masing. Dengan menyesuaikan kecepatan pembelajaran tanpa bergantung pada momentum orde kedua yang adaptif, SGD-SaI membantu mencegah ketidakseimbangan pelatihan sejak iterasi pertama dan memotong penggunaan memori pengoptimal hingga setengahnya dibandingkan dengan AdamW. Terlepas dari kesederhanaan dan efisiensinya, SGD-SaI secara konsisten menyamai atau mengungguli AdamW dalam melatih berbagai tugas berbasis Transformer, secara efektif mengatasi tantangan lama dalam menggunakan SGD untuk melatih Transformers. SGD-SaI unggul dalam klasifikasi ImageNet-1K dengan Vision Transformers (ViT) dan pra-pelatihan GPT-2 untuk model bahasa besar (LLM, khusus decoder transformator), yang menunjukkan ketahanan terhadap variasi hyperparameter dan kepraktisan untuk beragam aplikasi. Kami menguji lebih lanjut ketangguhannya pada tugas-tugas seperti penyempurnaan LoRA untuk LLM dan model difusi, yang secara konsisten mengungguli pengoptimal yang canggih. Dari perspektif efisiensi memori, SGD-SaI mencapai penghematan memori yang besar untuk status pengoptimal, mengurangi penggunaan memori sebesar 5,93 GB untuk GPT-2 (parameter 1,5B) dan 25,15 GB untuk Llama2-7B dibandingkan dengan AdamW dalam pengaturan pelatihan presisi penuh.
Riwayat pengiriman
Dari: Minghao Xu (lihat email)
(v1)
Sen, 16 Des 2024 13:41:37 UTC (1,216 KB)
(v2)
Sel, 17 Des 2024 09:30:44 UTC (1,216 KB)