Lihat PDF makalah berjudul No More Adam: Learning Rate Scaling at Initialization is All You Need, oleh Minghao Xu dan 3 penulis lainnya

Lihat PDF

Abstrak:Dalam karya ini, kami mempertanyakan perlunya metode gradien adaptif untuk melatih jaringan saraf dalam. SGD-SaI adalah peningkatan sederhana namun efektif untuk penurunan gradien stokastik dengan momentum (SGDM). SGD-SaI melakukan Penskalaan kecepatan pembelajaran saat Inisialisasi (SaI) ke grup parameter berbeda, dipandu oleh rasio gradien signal-to-noise (g-SNR) masing-masing. Dengan menyesuaikan kecepatan pembelajaran tanpa bergantung pada momentum orde kedua yang adaptif, SGD-SaI membantu mencegah ketidakseimbangan pelatihan sejak iterasi pertama dan memotong penggunaan memori pengoptimal hingga setengahnya dibandingkan dengan AdamW. Terlepas dari kesederhanaan dan efisiensinya, SGD-SaI secara konsisten menyamai atau mengungguli AdamW dalam melatih berbagai tugas berbasis Transformer, secara efektif mengatasi tantangan lama dalam menggunakan SGD untuk melatih Transformers. SGD-SaI unggul dalam klasifikasi ImageNet-1K dengan Vision Transformers (ViT) dan pra-pelatihan GPT-2 untuk model bahasa besar (LLM, khusus decoder transformator), yang menunjukkan ketahanan terhadap variasi hyperparameter dan kepraktisan untuk beragam aplikasi. Kami menguji lebih lanjut ketangguhannya pada tugas-tugas seperti penyempurnaan LoRA untuk LLM dan model difusi, yang secara konsisten mengungguli pengoptimal yang canggih. Dari perspektif efisiensi memori, SGD-SaI mencapai penghematan memori yang besar untuk status pengoptimal, mengurangi penggunaan memori sebesar 5,93 GB untuk GPT-2 (parameter 1,5B) dan 25,15 GB untuk Llama2-7B dibandingkan dengan AdamW dalam pengaturan pelatihan presisi penuh.

Riwayat pengiriman

Dari: Minghao Xu (lihat email)
(v1)
Sen, 16 Des 2024 13:41:37 UTC (1,216 KB)
(v2)
Sel, 17 Des 2024 09:30:44 UTC (1,216 KB)

Sumber

Krystian Wiśniewski
Krystian Wiśniewski is a dedicated Sports Reporter and Editor with a degree in Sports Journalism from He graduated with a degree in Journalism from the University of Warsaw. Bringing over 14 years of international reporting experience, Krystian has covered major sports events across Europe, Asia, and the United States of America. Known for his dynamic storytelling and in-depth analysis, he is passionate about capturing the excitement of sports for global audiences and currently leads sports coverage and editorial projects at Agen BRILink dan BRI.