Home Olahraga Apple berkolaborasi dengan NVIDIA untuk meneliti kinerja LLM yang lebih cepat

Olahraga

Apple berkolaborasi dengan NVIDIA untuk meneliti kinerja LLM yang lebih cepat

18 December 2024

Di sebuah postingan blog hari iniInsinyur Apple telah membagikan detail baru tentang kolaborasi dengan NVIDIA untuk mengimplementasikan kinerja pembuatan teks yang lebih cepat dengan model bahasa besar.

Apel diterbitkan Dan bersumber terbuka teknik Recurrent Drafter (ReDrafter) awal tahun ini. Ini mewakili metode baru untuk menghasilkan teks dengan LLM yang jauh lebih cepat dan “mencapai kinerja canggih.” Ini menggabungkan dua teknik: pencarian berkas (untuk mengeksplorasi berbagai kemungkinan) dan perhatian pohon dinamis (untuk menangani pilihan secara efisien).

Meskipun penelitiannya menunjukkan hasil yang kuat, Apple berkolaborasi dengan NVIDIA untuk menerapkan ReDrafter dalam produksi. Sebagai bagian dari kolaborasi ini, ReDrafter diintegrasikan ke dalam NVIDIA TensorRT-LLM, sebuah alat yang membantu menjalankan LLM lebih cepat pada GPU NVIDIA.

Berikut hasilnya:

Untuk memungkinkan integrasi ReDrafter, NVIDIA menambahkan operator baru atau mengekspos operator yang sudah ada, sehingga meningkatkan kemampuan TensorRT-LLM dalam mengakomodasi model dan metode decoding yang canggih. Pengembang ML yang menggunakan GPU NVIDIA kini dapat dengan mudah memanfaatkan percepatan pembuatan token ReDrafter untuk aplikasi produksi LLM mereka dengan TensorRT-LLM.

Dalam melakukan benchmarking model produksi parameter puluhan miliar pada GPU NVIDIA, menggunakan kerangka akselerasi inferensi NVIDIA TensorRT-LLM dengan ReDrafter, kami telah melihat peningkatan 2,7x dalam token yang dihasilkan per detik untuk decoding yang serakah. Hasil benchmark ini menunjukkan bahwa teknologi ini dapat secara signifikan mengurangi latensi yang mungkin dialami pengguna, sekaligus menggunakan lebih sedikit GPU dan mengonsumsi lebih sedikit daya.

“LLM semakin banyak digunakan untuk mendukung aplikasi produksi, dan meningkatkan efisiensi inferensi dapat berdampak pada biaya komputasi dan mengurangi latensi bagi pengguna,” peneliti pembelajaran mesin Apple menyimpulkan. “Dengan pendekatan baru ReDrafter terhadap decoding spekulatif yang diintegrasikan ke dalam kerangka kerja NVIDIA TensorRT-LLM, pengembang kini dapat memperoleh manfaat dari pembuatan token yang lebih cepat pada GPU NVIDIA untuk aplikasi LLM produksi mereka.”

Anda dapat mempelajari lebih lanjut tentang pekerjaan ini di situs web Apple dan dalam postingan blog di situs web NVIDIA:

Ikuti Peluang: benang, langit biru, InstagramDan mastodon.

FTC: Kami menggunakan tautan afiliasi otomatis yang menghasilkan pendapatan. Lagi.

Sumber

Apple berkolaborasi dengan NVIDIA untuk meneliti kinerja LLM yang lebih cepat

YANG TERBARU

Tanaman hias yang ‘bertindak sebagai penurun kelembapan alami’ untuk mencegah kondensasi...

Marochko berbicara tentang pembalasan di Angkatan Bersenjata Ukraina dengan menggunakan drone:...

Yen turun karena Bank of Japan mempertahankan suku bunga utama

Pembelian Foxtel DAZN semakin dekat

Jika Joe Biden bisa memaafkan putranya Hunter, mengapa dia tidak bisa...

Petugas polisi BC yang dituduh melakukan pelecehan seksual meninggal karena bunuh...

Cruz Hewitt, putra Lleyton, menerima wildcard kualifikasi Australia Terbuka

Destinasi bintang lima di East Cork ini menawarkan banyak hal untuk...

kategori