Model perilaku AI yang mengendalikan cara robot berinteraksi dengan dunia fisik belum berkembang secepat model bahasa gaya GPT – tetapi ‘simulator dunia’ multiverse baru dari Nvidia dan Google dapat berubah secepat itu.

Ada masalah ayam-dan-telur yang memperlambat robotika AI; AI model bahasa besar (LLM) telah menikmati manfaat dari kumpulan data yang sangat besar untuk dilatih, karena Internet telah menyimpan banyak sekali data teks, gambar, video, dan audio.

Namun data yang dapat digunakan untuk melatih AI model perilaku besar (LBM) jauh lebih sedikit. Robot dan kendaraan otonom membutuhkan biaya yang mahal dan bersifat fisik yang mengganggu, sehingga data seputar representasi 3D dari situasi fisik dunia nyata membutuhkan waktu lebih lama untuk dikumpulkan dan dimasukkan ke dalam model AI.

Inilah salah satu alasan mengapa Tesla sangat tertarik untuk memasukkan perangkat keras self-driving ke sebanyak mungkin mobilnya, sedini mungkin, untuk memberi perusahaan keunggulan dalam pengumpulan data yang dapat memposisikannya sebagai pemimpin dalam bidang otonom. kendaraan.

Namun pengumuman terbaru dari Nvidia dan Google Deepmind menunjukkan bahwa hambatan data ini akan segera diatasi, sehingga membuka percepatan besar dalam pengembangan AI fisik.

Simulasi gaya multiverse dapat menggambarkan efek jalur pengambilan keputusan yang secara teori tidak terbatas pada robot AI

Nvidia

Akselerasi AI multiversal melalui simulasi data dunia nyata

Idenya adalah untuk menghasilkan data pelatihan yang andal dalam jumlah besar melalui penggunaan simulator dunia bergaya multiverse yang dapat mengambil satu situasi dunia nyata – atau bahkan hanya sebuah perintah teks, kemudian membuat model virtualnya, dan kemudian membaginya menjadi sejumlah situasi yang sedikit berbeda secara teoritis tidak terbatas.

Jadi jika Anda memiliki data senilai enam kamera dari mobil otonom, misalnya, saat berkendara di jalan pada hari musim panas yang cerah, Anda dapat mengambil data tersebut, memvirtualisasikannya untuk membuat representasi dunia 3D, dan kemudian menggunakannya untuk menghasilkan sejumlah besar situasi yang sedikit berbeda. Anda dapat menciptakan kembali situasi yang sama pada 100 waktu berbeda, siang dan malam, dalam 100 kondisi cuaca berbeda yang mungkin mencakup hujan, salju, angin kencang, atau kabut tebal.

Anda kemudian dapat membagi dunia virtual untuk masing-masing skenario waktu dan cuaca ini, di mana kendaraan lain di jalan, atau pejalan kaki, atau hewan, atau objek, bertindak sedikit berbeda, sehingga menciptakan situasi yang benar-benar baru untuk bereaksi terhadap mobil otonom Anda. Jika ada sesuatu yang jatuh, Anda dapat menyimulasikannya memantul ke 100 arah berbeda. Anda dapat mensimulasikan segala macam kasus tepi yang sangat tidak mungkin terjadi di dunia nyata.

Dan tentu saja, Anda dapat membagi dunia yang berbeda dari masing-masing dunia tersebut, tempat mobil otonom itu sendiri bereaksi dan memilih tindakan yang berbeda.

Anda kemudian dapat mengambil simulasi representasi dunia 3D tersebut, dan bekerja mundur untuk menghasilkan umpan video simulasi berkualitas tinggi untuk keenam kamera mobil asli Anda – dan umpan data untuk sensor lain apa pun yang mungkin dimiliki sistem robot Anda.

Dan hei presto: satu potongan data asli Anda dapat berubah menjadi ribuan, atau jutaan skenario pelatihan serupa, namun sedikit berbeda, semuanya dihasilkan menggunakan simulator fisika dan material tingkat lanjut.

“Momen ChatGPT untuk robotika akan segera tiba,” kata Jensen Huang, pendiri dan CEO Nvidia, saat mengumumkan peluncuran model simulasi dunia Cosmos milik perusahaan tersebut dalam pidatonya. pembicara utama di CES. “Seperti model bahasa besar, model landasan dunia sangat penting untuk memajukan pengembangan robot dan AV, namun tidak semua pengembang memiliki keahlian dan sumber daya untuk melatihnya sendiri. Kami menciptakan Cosmos untuk mendemokratisasi AI fisik dan menempatkan robotika umum dalam jangkauan setiap pengembang.”

Model Cosmos juga dapat beroperasi secara real-time, menurut video di bawah ini, “membawa kekuatan tinjauan masa depan dan simulasi multiverse ke model AI, menghasilkan setiap kemungkinan masa depan untuk membantu model memilih jalur yang tepat.”

NVIDIA Cosmos: Platform Model Landasan Dunia untuk AI Fisik

Tentu saja, kebutuhan data dan pemrosesan untuk hal semacam ini akan sangat luar biasa, dan nVidia telah berusaha membantu mengatasi hal ini dengan Cosmos Tokenizer miliknya, yang dapat mengubah gambar dan video menjadi token yang dapat diproses oleh model AI dengan menggunakan sekitar 1/8 dari jumlah tersebut. jumlah data yang dibutuhkan oleh pembuat token terkemuka saat ini, membuka peningkatan kecepatan pemrosesan sebesar 12X lipat.

Sebagai penyedia perangkat keras AI terkemuka di dunia, nVidia telah memiliki sebagian besar industri robotika yang sedang berkembang dengan inisiatif Cosmos. Perusahaan seperti 1X, Figure AI, Fourier, dan Agility mengadopsi Cosmos untuk mempercepat pelatihan robot humanoid, dan Xpeng, Uber, Waavi, dan Wayve adalah beberapa perusahaan mobil otonom yang ikut terlibat.

Sementara itu, Google Deepmind meluncurkan inisiatif serupa – meskipun tampaknya merupakan langkah yang layak di belakang nVidia. Mantan pemimpin OpenAI Sora, Tim Brooks, yang sekarang memimpin generasi video Deepmind dan tim sim dunia, membuat postingan berikut di X kemarin:

Dalam uraian tugas yang ditautkan, tim Google menunjukkan bahwa simulasi dunia fisik semacam ini akan menjadi langkah penting menuju kecerdasan umum buatan (AGI): “Kami yakin penskalaan pra-pelatihan pada video dan data multimodal berada pada titik kritis. jalur menuju kecerdasan umum buatan. Model dunia akan mendukung banyak domain, seperti penalaran dan simulasi visual, perencanaan untuk agen yang diwujudkan, dan hiburan interaktif waktu nyata.”

Teman-teman, mungkin sulit untuk mengetahui apa yang penting dalam pengumuman seputar kemajuan AI, dan hampir mustahil untuk melacak semua yang sedang terjadi. Namun untuk menempatkan hal ini dalam konteksnya, di mana LLM seperti GPT dengan cepat hadir untuk pekerjaan kerah putih, LBM yang diwujudkan dalam robot – baik itu humanoid, kendaraan atau dalam bentuk lain yang dirancang untuk lingkungan tertentu – hadir untuk sesuatu yang lebih biru. -kerah, atau yang melibatkan lebih banyak interaksi dengan dunia fisik.

Teknologi di sektor ini sudah benar-benar luar biasa, hampir tidak dapat dibedakan dari sihir, dan menjanjikan perubahan mendasar dan mendalam pada dunia dalam beberapa tahun dan dekade mendatang. Peralatan simulasi multiverse ini sepertinya akan mempercepat kemajuan secara signifikan menuju visi utopis perekonomian pasca-buruh… Atau hasil apa pun yang kurang menyenangkan yang mungkin kita dapatkan.

Sumber: nVidia / Google Pikiran Dalam



Sumber

Alexander Rossi
Alexander Rossi is the Creator and Editor for Gadget & Teknologi with a degree in Information Technology from the University of California, Berkeley. With over 11 years of experience in technology journalism, Alexander has covered cutting-edge innovations, product reviews, and digital trends globally. He has contributed to top tech outlets, providing expert analysis on gadgets and tech developments. Currently at Agen BRILink dan BRI, Alexander leads content creation and editorial strategy, delivering comprehensive and engaging technology insights.