Lihat PDF makalah berjudul TinyStories: Seberapa Kecil Model Bahasa Bisa dan Masih Berbicara Bahasa Inggris yang Koheren?, oleh Ronen Eldan dan Yuanzhi Li

Lihat PDF

Abstrak:Model bahasa (LM) adalah alat yang ampuh untuk pemrosesan bahasa alami, namun model tersebut sering kali kesulitan menghasilkan teks yang koheren dan lancar ketika ukurannya masih kecil. Model dengan parameter sekitar 125 juta seperti GPT-Neo (kecil) atau GPT-2 (kecil) jarang dapat menghasilkan teks bahasa Inggris yang koheren dan konsisten melebihi beberapa kata bahkan setelah pelatihan ekstensif. Hal ini menimbulkan pertanyaan apakah kemunculan kemampuan menghasilkan teks bahasa Inggris yang koheren hanya terjadi pada skala yang lebih besar (dengan ratusan juta parameter atau lebih) dan arsitektur yang kompleks (dengan banyak lapisan perhatian global).

Dalam karya ini, kami memperkenalkan TinyStories, kumpulan data sintetis berupa cerita pendek yang hanya berisi kata-kata yang biasanya dipahami oleh anak usia 3 hingga 4 tahun, yang dihasilkan oleh GPT-3.5 dan GPT-4. Kami menunjukkan bahwa TinyStories dapat digunakan untuk melatih dan mengevaluasi LM yang jauh lebih kecil daripada model canggih (total parameter di bawah 10 juta), atau memiliki arsitektur yang jauh lebih sederhana (hanya dengan satu blok transformator), namun tetap menghasilkan cerita yang lancar dan konsisten dengan beberapa paragraf yang beragam dan memiliki tata bahasa yang hampir sempurna, serta menunjukkan kemampuan penalaran.

Kami juga memperkenalkan paradigma baru untuk evaluasi model bahasa: Kami menyarankan kerangka kerja yang menggunakan GPT-4 untuk menilai konten yang dihasilkan oleh model ini seolah-olah konten tersebut adalah cerita yang ditulis oleh siswa dan dinilai oleh guru (manusia). Paradigma baru ini mengatasi kelemahan tolok ukur standar yang seringkali mengharuskan keluaran model sangat terstruktur, dan terlebih lagi memberikan skor multidimensi untuk model, memberikan skor untuk berbagai kemampuan seperti tata bahasa, kreativitas, dan konsistensi.

Kami berharap TinyStories dapat memfasilitasi pengembangan, analisis, dan penelitian LM, terutama untuk domain dengan sumber daya rendah atau khusus, dan menjelaskan munculnya kemampuan bahasa di LM.

Riwayat pengiriman

Dari: Yuanzhi Li (lihat email)
(v1)
Jum, 12 Mei 2023 20:56:48 UTC (26.425 KB)
(v2)
Rabu, 24 Mei 2023 23:30:43 UTC (25,561 KB)

Sumber

Krystian Wiśniewski
Krystian Wiśniewski is a dedicated Sports Reporter and Editor with a degree in Sports Journalism from He graduated with a degree in Journalism from the University of Warsaw. Bringing over 14 years of international reporting experience, Krystian has covered major sports events across Europe, Asia, and the United States of America. Known for his dynamic storytelling and in-depth analysis, he is passionate about capturing the excitement of sports for global audiences and currently leads sports coverage and editorial projects at Agen BRILink dan BRI.