Di sebuah postingan blog hari iniInsinyur Apple telah membagikan detail baru tentang kolaborasi dengan NVIDIA untuk mengimplementasikan kinerja pembuatan teks yang lebih cepat dengan model bahasa besar.
Apel diterbitkan Dan bersumber terbuka teknik Recurrent Drafter (ReDrafter) awal tahun ini. Ini mewakili metode baru untuk menghasilkan teks dengan LLM yang jauh lebih cepat dan “mencapai kinerja canggih.” Ini menggabungkan dua teknik: pencarian berkas (untuk mengeksplorasi berbagai kemungkinan) dan perhatian pohon dinamis (untuk menangani pilihan secara efisien).
Meskipun penelitiannya menunjukkan hasil yang kuat, Apple berkolaborasi dengan NVIDIA untuk menerapkan ReDrafter dalam produksi. Sebagai bagian dari kolaborasi ini, ReDrafter diintegrasikan ke dalam NVIDIA TensorRT-LLM, sebuah alat yang membantu menjalankan LLM lebih cepat pada GPU NVIDIA.
Berikut hasilnya:
Untuk memungkinkan integrasi ReDrafter, NVIDIA menambahkan operator baru atau mengekspos operator yang sudah ada, sehingga meningkatkan kemampuan TensorRT-LLM dalam mengakomodasi model dan metode decoding yang canggih. Pengembang ML yang menggunakan GPU NVIDIA kini dapat dengan mudah memanfaatkan percepatan pembuatan token ReDrafter untuk aplikasi produksi LLM mereka dengan TensorRT-LLM.
Dalam melakukan benchmarking model produksi parameter puluhan miliar pada GPU NVIDIA, menggunakan kerangka akselerasi inferensi NVIDIA TensorRT-LLM dengan ReDrafter, kami telah melihat peningkatan 2,7x dalam token yang dihasilkan per detik untuk decoding yang serakah. Hasil benchmark ini menunjukkan bahwa teknologi ini dapat secara signifikan mengurangi latensi yang mungkin dialami pengguna, sekaligus menggunakan lebih sedikit GPU dan mengonsumsi lebih sedikit daya.
“LLM semakin banyak digunakan untuk mendukung aplikasi produksi, dan meningkatkan efisiensi inferensi dapat berdampak pada biaya komputasi dan mengurangi latensi bagi pengguna,” peneliti pembelajaran mesin Apple menyimpulkan. “Dengan pendekatan baru ReDrafter terhadap decoding spekulatif yang diintegrasikan ke dalam kerangka kerja NVIDIA TensorRT-LLM, pengembang kini dapat memperoleh manfaat dari pembuatan token yang lebih cepat pada GPU NVIDIA untuk aplikasi LLM produksi mereka.”
Anda dapat mempelajari lebih lanjut tentang pekerjaan ini di situs web Apple dan dalam postingan blog di situs web NVIDIA:
Ikuti Peluang: benang, langit biru, InstagramDan mastodon.