Kedatangan Sistem AI yang disebut model bahasa besar (LLM), seperti chatbot ChatGPT OpenAI, telah digembar-gemborkan sebagai awal dari era teknologi baru. Dan hal ini mungkin mempunyai dampak yang signifikan terhadap cara kita hidup dan bekerja di masa depan.
Namun mereka tidak muncul begitu saja dan memiliki sejarah yang lebih panjang dari yang disadari kebanyakan orang. Faktanya, sebagian besar dari kita telah menggunakan pendekatan yang mendasarinya selama bertahun-tahun dalam teknologi yang ada.
LLM adalah jenis model bahasa tertentu, yang merupakan representasi matematis bahasa berdasarkan probabilitas. Jika Anda pernah menggunakan teks prediktif di ponsel atau mengajukan pertanyaan kepada pembicara cerdas, Anda hampir pasti pernah menggunakan model bahasa. Tapi apa sebenarnya yang mereka lakukan dan apa yang diperlukan untuk mewujudkannya?
Model bahasa dirancang untuk memperkirakan seberapa besar kemungkinan melihat rangkaian kata tertentu. Di sinilah kemungkinan berperan. Misalnya, model bahasa Inggris yang baik akan memberikan probabilitas tinggi pada kalimat yang terbentuk dengan baik seperti “kucing hitam tua tidur nyenyak” dan probabilitas rendah pada rangkaian kata acak seperti “perpustakaan a atau kuantum beberapa”.
Kebanyakan model bahasa juga dapat membalikkan proses ini untuk menghasilkan teks yang tampak masuk akal. Teks prediktif di ponsel cerdas Anda menggunakan model bahasa untuk mengantisipasi bagaimana Anda ingin melengkapi teks saat Anda mengetik.
Metode paling awal untuk membuat model bahasa adalah dijelaskan pada tahun 1951 oleh Claude Shannonseorang peneliti yang bekerja untuk IBM. Pendekatannya didasarkan pada rangkaian kata yang dikenal sebagai n-gram – katakanlah, “kucing hitam tua” atau “kucing tidur nyenyak”. Kemungkinan munculnya n-gram dalam teks diperkirakan dengan mencari contoh pada dokumen yang ada. Probabilitas matematis ini kemudian digabungkan untuk menghitung probabilitas keseluruhan rangkaian kata yang lebih panjang, seperti kalimat lengkap.
Jaringan saraf
Memperkirakan probabilitas untuk n-gram menjadi jauh lebih sulit seiring bertambahnya panjang n-gram, sehingga lebih sulit untuk memperkirakan probabilitas yang akurat untuk 4-gram (urutan empat kata) dibandingkan untuk bi-gram (urutan dua kata). Akibatnya, model bahasa awal jenis ini sering kali didasarkan pada n-gram pendek.
Namun, ini berarti bahwa mereka sering kesulitan untuk merepresentasikan hubungan antara kata-kata yang muncul berjauhan. Hal ini dapat mengakibatkan awal dan akhir kalimat tidak cocok ketika model bahasa digunakan untuk menghasilkan kalimat.
Baca: Pembaruan iOS 18.2 diluncurkan, menambahkan ChatGPT ke iPhone
Untuk menghindari masalah ini, peneliti menciptakan model bahasa berdasarkan jaringan saraf – Sistem AI yang meniru cara kerja otak manusia. Model bahasa ini mampu merepresentasikan hubungan antar kata yang mungkin tidak berdekatan. Jaringan saraf mengandalkan sejumlah besar nilai numerik (dikenal sebagai parameter) untuk membantu memahami hubungan antar kata. Parameter ini harus diatur dengan benar agar model dapat bekerja dengan baik.
Jaringan saraf mempelajari nilai yang sesuai untuk parameter ini dengan melihat sejumlah besar contoh dokumen, dengan cara yang sama seperti probabilitas n-gram dipelajari oleh model bahasa n-gram. Selama ini proses “pelatihan”.jaringan saraf melihat dokumen pelatihan dan belajar memprediksi kata berikutnya berdasarkan kata-kata sebelumnya.
Model-model ini bekerja dengan baik tetapi memiliki beberapa kelemahan. Meskipun secara teori, jaringan saraf mampu merepresentasikan hubungan antara kata-kata yang terjadi berjauhan, dalam praktiknya lebih mementingkan kata-kata yang letaknya lebih dekat.
Lebih penting lagi, kata-kata dalam dokumen pelatihan harus diproses secara berurutan untuk mempelajari nilai yang sesuai untuk parameter jaringan. Hal ini membatasi seberapa cepat jaringan dapat dilatih.
Fajar Transformers
Jenis jaringan saraf baru, disebut transformatoradalah diperkenalkan pada tahun 2017 dan menghindari masalah ini dengan memproses semua kata yang dimasukkan secara bersamaan. Hal ini memungkinkan mereka untuk dilatih secara paralel, artinya penghitungan yang diperlukan dapat tersebar di beberapa komputer untuk dilakukan pada waktu yang bersamaan.
Efek samping dari perubahan ini adalah memungkinkan transformator dilatih pada lebih banyak dokumen dibandingkan pendekatan sebelumnya, sehingga menghasilkan model bahasa yang lebih besar.
Transformers juga belajar dari contoh teks tetapi dapat dilatih untuk memecahkan masalah yang lebih luas daripada hanya memprediksi kata berikutnya. Salah satunya adalah jenis masalah “mengisi bagian yang kosong” di mana beberapa kata dalam teks pelatihan telah dihapus. Tujuannya di sini adalah menebak kata mana yang hilang.
Masalah lainnya adalah transformator diberikan sepasang kalimat dan diminta memutuskan apakah kalimat kedua harus mengikuti kalimat pertama. Pelatihan mengenai masalah seperti ini telah membuat transformator lebih fleksibel dan kuat dibandingkan model bahasa sebelumnya.
Penggunaan transformator telah memungkinkan pengembangan model bahasa modern yang besar. Model ini sebagian disebut sebagai model besar karena dilatih menggunakan lebih banyak contoh teks dibandingkan model sebelumnya.
Beberapa model AI ini sedang dilatih lebih dari satu triliun kata. Dibutuhkan waktu lebih dari 7.600 tahun bagi orang dewasa yang membaca dengan kecepatan rata-rata untuk membaca sebanyak itu. Model ini juga didasarkan pada jaringan saraf yang sangat besar, beberapa di antaranya memiliki lebih dari 100 miliar parameter.
Dalam beberapa tahun terakhir, komponen tambahan telah ditambahkan ke model bahasa besar yang memungkinkan pengguna berinteraksi dengan mereka menggunakan perintah. Perintah ini dapat berupa pertanyaan atau instruksi.
Pembelajaran penguatan
Hal ini memungkinkan pengembangan sistem AI generatif seperti ChatGPT, Gemini Google, dan Llama Meta. Model belajar merespons perintah menggunakan proses yang disebut pembelajaran penguatanyang mirip dengan cara komputer diajarkan untuk bermain permainan seperti catur.
Manusia memberikan petunjuk kepada model bahasa, dan umpan balik manusia atas balasan yang dihasilkan oleh model AI digunakan oleh algoritme pembelajaran model untuk memandu keluaran selanjutnya. Menghasilkan semua pertanyaan ini dan memberi peringkat pada balasannya memerlukan banyak masukan dari manusia, yang bisa jadi mahal untuk diperoleh.
Salah satu cara untuk mengurangi biaya ini adalah dengan membuat contoh menggunakan model bahasa untuk mensimulasikan interaksi manusia-AI. Umpan balik yang dihasilkan AI ini kemudian digunakan untuk melatih sistem.
Namun, membuat model bahasa berukuran besar masih merupakan upaya yang mahal. Biaya pelatihan beberapa model terbaru diperkirakan mencapai ratusan juta dolar. Ada juga dampak lingkungan, dimana emisi karbon dioksida yang terkait dengan pembuatan LLM diperkirakan setara dengan beberapa penerbangan transatlantik.
Hal-hal inilah yang perlu dicarikan solusinya di tengah revolusi AI yang, untuk saat ini, belum menunjukkan tanda-tanda akan melambat.
- Penulisnya, Mark Stevenson, adalah dosen senior, Universitas Sheffield
- Artikel ini diterbitkan ulang dari Percakapan di bawah lisensi Creative Commons. Baca artikel asli
Dapatkan berita terkini dari TechCentral di WhatsApp. Daftar di sini
Jangan lewatkan:
Google meluncurkan model Gemini AI yang lebih cepat ke agen-agen listrik