Rilis AI terbaru OpenAI yang mengubah permainan telah diluncurkan. Model o1 baru, yang kini tersedia di ChatGPT, kini ‘berpikir’ sebelum merespons – dan model ini mulai mengalahkan model sebelumnya dan manusia bergelar Ph.D dalam memecahkan masalah tingkat ahli.

Rasanya OpenAI memberi kita sedikit ruang untuk bernapas di sana, bukan? Maksud saya, GPT-4o dan mode suara canggihnya (yang memalukan, tetapi sebagian besar masih belum tersedia) diumumkan pada bulan Mei, tetapi itu benar-benar terasa seperti kemajuan kecil. Generator teks-ke-video Sora benar-benar membuat orang-orang terkesima pada bulan Februari, tetapi itu masih belum tersedia untuk umum, meskipun beberapa pesaing Tiongkok sekarang tampaknya memberikan kualitas yang sama.

Ada berbagai spekulasi seputar seperti apa wujud GPT-5, kapan akan diluncurkan, dan apakah sudah mencapai beberapa definisi Kecerdasan Umum Buatan (AGI) – tetapi tadi malam, OpenAI membawa hal-hal ke arah yang berbeda, memisahkan model baru dari garis keturunan GPT.

Menariknya, model o1 tampaknya tidak meningkatkan kemampuan menulis bahasa Inggris GPT-4o sama sekali

Buka AI

Memperkenalkan o1: Sang Pemikir

Model baru ini disebut o1. Model ini sudah diaktifkan di 100% akun pengguna ChatGPT sebagai opsi yang dapat Anda gunakan. Dan meskipun GPT-4o (omni) tetap menjadi model andalan yang paling relevan untuk sebagian besar tugas, o1 merupakan semacam spesialis.

Keistimewaannya adalah penalaran yang kompleks. Dan kekuatan super yang membedakannya dari model GPT adalah… Ia berhenti dan ‘berpikir’ alih-alih langsung menjawab Anda.

Sering kali tergoda untuk mengantropomorfiskan model bahasa seperti ini; model tersebut bukan manusia, tetapi karena model tersebut dilatih pada banyak hal tentang manusia, sering kali terdapat persamaan yang menyeramkan. Dalam kasus ini, o1 mencapai kinerja yang jauh lebih tinggi pada tugas-tugas yang sulit daripada model-model sebelumnya, pada dasarnya dengan membuat sketsa semua hal yang harus dikerjakannya, memecah pekerjaan besar menjadi tugas-tugas yang lebih kecil, memeriksa pekerjaannya secara rekursif, dan menantang asumsinya sendiri – semuanya di balik layar, dan sebelum mulai memberi Anda jawaban.

Jadi, sementara GPT-4o biasanya langsung menulis kode, atau membuat gambar, atau menulis jawaban, o1 mungkin duduk dan merenungkan pertanyaan tersebut untuk sementara waktu, merencanakan jalur serangannya. Waktu yang dibutuhkan tidak lama – mungkin 10-20 detik – tetapi tampaknya waktu tersebut sangat penting dalam menghadapi berbagai masalah sulit yang biasanya dihadapi oleh LLM ini.

Memang, semakin lama ia berpikir, hasilnya akan semakin baik, dan sementara produk yang dirilis saat ini akan mempertimbangkan berbagai hal selama hitungan detik, OpenAI mengatakan mungkin akan lebih masuk akal untuk merilis versi masa depan yang akan menghabiskan waktu berjam-jam, berhari-hari atau bahkan berminggu-minggu untuk mengolah dengan saksama masalah yang besar dan kompleks, menghasilkan banyak solusi, mengujinya satu sama lain dan akhirnya memberi Anda sebuah jawaban.

Keterbatasan o1 saat ini

Saat ini, o1 tersedia dalam model “Pratinjau” dan “mini”. Keduanya dapat menulis dan mengeksekusi kode, tetapi ini adalah pratinjau beta, dan keduanya tidak memiliki beberapa komponen utama:

  • Anda tidak dapat mengunggah file ke sana
  • Mereka tampaknya tidak memiliki akses ke memori GPT-4o, atau perintah sistem kustom pribadi Anda, jadi mereka tidak tahu apa pun tentang Anda
  • Mereka tidak dapat menelusuri web untuk mencari informasi baru setelah batas waktu pelatihan mereka – Oktober 2023.

Dalam tugas menulis umum, dan apa pun yang memerlukan unggahan berkas atau akses web, GPT-4o masih akan jauh lebih berguna – namun di sisi lain, ada kemungkinan GPT-4o menyusun sekumpulan aset yang berguna dan melakukan sejumlah analisis awal, lalu mengemas masalah tersebut dalam sebuah perintah untuk teman barunya yang lebih cerdas namun lebih terisolasi.

Seberapa bagus model o1?

Peluncuran ini selalu disertai dengan banyak grafik, jadi mari kita lihat beberapa – dimulai dengan performa model baru pada uji pengodean OpenAI sendiri untuk para insinyur penelitian… Di mana, jika diberi kesempatan untuk mencoba soal sebanyak 128 kali dan mengirimkan jawaban terbaiknya, baik model mini maupun pratinjau memperoleh skor 100%.

Lalu ada pertanyaan tingkat ahli Ph.D dalam Biologi, Kimia, dan Fisika. o1 mengalahkan fisikawan tingkat doktor di domain mereka sendiri, yang diizinkan mengikuti ujian ini dengan buku terbuka, dan meskipun tidak dapat mengalahkan ahli biologi dan kimia, ia berhasil mengejar mereka. Skor keseluruhannya adalah yang terbaik yang pernah dilihat dari model AI.

Lalu ada matematika – jika Anda telah menghabiskan banyak waktu dengan model GPT lainnya, Anda akan menyadari bahwa kemampuan matematikanya masih jauh dari kata memuaskan. Model o1 merupakan lompatan maju yang substansial di sini; seperti yang ditunjukkan oleh kinerjanya dalam olimpiade matematika sekolah menengah AIME 2024 – tantangan matematika tingkat kompetisi selama tiga jam yang hanya terbuka untuk siswa matematika Amerika terbaik.

Kinerja matematika dan pengkodean tingkat kompetisi ditingkatkan secara radikal
Kinerja matematika dan pengkodean tingkat kompetisi ditingkatkan secara radikal

Buka AI

Model AI diberi 64 kesempatan dalam pengujian, yang mana jawaban yang paling umum dipilih berdasarkan konsensus. Model GPT-4o mempermalukan dirinya sendiri dengan hanya mendapatkan 13,4% jawaban yang benar. o1 full-fat, yang diberi banyak waktu untuk berpikir, memperoleh skor 83,3%, menempatkannya di posisi 500 teratas di negara tersebut. Dan skornya dalam satu kesempatan tidak jauh tertinggal, yaitu lebih dari 70%.

Lonjakan kinerja ini terlihat sangat mirip dalam tantangan pemrograman tingkat kompetisi Codeforces; GPT-4o berada di persentil ke-11 dari peserta yang menyelesaikan, o1 berada di persentil ke-89. Ya, itu hebat.

Menurut kartu sistem OpenAI, area lain di mana o1 membuat kemajuan signifikan meliputi:

  • Lebih baik dalam mengenali dan menolak upaya jailbreak, meskipun terkadang upaya ini masih berhasil
  • Ini hampir 100% efektif dalam menolak memuntahkan data pelatihan
  • Ini menunjukkan bias yang lebih sedikit dalam hal usia, ras, dan jenis kelamin.
  • Ia lebih sadar diri, dan dengan demikian lebih mampu merencanakan dan berpikir mengenai kelemahannya sendiri
  • Ini sedikit lebih baik dalam membujuk manusia untuk mengubah pikiran mereka – sebuah tugas yang hanya dapat diselesaikan oleh 18,2% manusia
  • Ini jauh lebih manipulatif, setidaknya dalam hal memanipulasi GPT-4o
  • Ini adalah lompatan yang lumayan untuk lebih baik dalam menerjemahkan antar bahasa

Di sisi lain, masih saja tidak dapat dipercaya, dan sering kali merupakan seniman yang tidak berdasar.
OpenAI mengatakan bahwa kinerjanya lebih baik daripada GPT-4o pada tes yang secara khusus dirancang untuk membuat model ‘berhalusinasi,’ atau hanya membuat jawaban yang terdengar meyakinkan yang salah – tetapi para peneliti mengakui bahwa secara anekdot, pengguna melaporkan bahwa model o1 baru sebenarnya lagi cenderung mengada-ada tentang hal-hal yang sebenarnya tidak mereka ketahui daripada model lama, dalam penggunaan praktis sehari-hari.

Memang, para peneliti menunjukkan contoh di mana model o1, yang tidak dapat mengakses Web, langsung saja membayangkan sejumlah pranala rujukan yang menarik ketika dimintai sumber pada jawabannya. Jadi berhati-hatilah dengan hal itu.

o1 juga menunjukkan kemampuan untuk memalsukan penyelarasan; mengingat tujuan jangka panjang, terkadang ia akan berbohong untuk menjaga dirinya dalam posisi untuk secara diam-diam melaksanakan tujuan jangka panjang ini, di mana kejujuran mungkin membuatnya tersingkir dari lapangan permainan. Itu sedikit mengkhawatirkan, tetapi OpenAI mengatakan bahwa model GPT-4o pandai menangkapnya ketika diberi akses ke proses penalaran rantai pemikirannya.

Apa artinya semua ini?

Sederhananya, ChatGPT kini menjadi jauh lebih mampu dalam tugas yang lebih panjang, lebih sulit, dan lebih kompleks. Penalaran logis dan perencanaan merupakan komponen penting untuk mencapai tujuan besar: model AI yang dapat mengambil sebuah ide dan langsung mengeksekusinya, berapa pun waktu yang dibutuhkan, memeriksa pekerjaannya secara menyeluruh, dan mengumpulkan serta menggunakan sumber daya apa pun yang dibutuhkan selama prosesnya.

Dalam waktu dekat, keturunan model yang dapat kita akses secara gratis saat ini akan dapat menjalankan seluruh bisnis sendiri. Atau klinik. Atau ruang sidang. Atau pemerintahan.

Model o1 awal ini menjanjikan untuk memberikan perangkat yang jauh lebih canggih kepada pengguna GPT tingkat lanjut, dan dalam beberapa hari dan minggu mendatang Anda dapat melihat berbagai contoh bermunculan di media sosial. Berikut salah satunya:

Dan satu lagi…

Perspektif pribadi

Model multimoda besar seperti ChatGPT sama bermanfaatnya dengan imajinasi Anda. Saya melihat layanan GPT yang ada memiliki banyak fungsi; sebagai analis data yang sangat cakap, misalnya, memandu saya melalui proses mengolah angka untuk membantu saya membuat keputusan. Layanan ini juga menawarkan cara yang sangat efektif untuk menginterogasi makalah ilmiah yang jauh melampaui tingkat pemahaman saya.

Terkadang, fitur ini membantu kami menghasilkan ide sudut pandang utama – tetapi perlu diperjelas, kami tidak menggunakan teks yang dihasilkan AI di situs. Fitur ini membantu saya mengumpulkan sumber data, menggabungkannya, dan membuat visualisasi yang lebih bermanfaat dalam pelaporan rutin. Saya merasa mode suara sangat membantu dalam menyampaikan ide saat orang lain tidak ada. Mode suara telah berhasil memandu saya melalui perbaikan teknis yang melibatkan masalah pengodean dan integrasi yang jauh di luar kemampuan saya.

Pada tingkat pribadi, saya pernah menggunakannya untuk membantu saya menyusun dan menentukan keputusan pembelian mobil, memberikan ide untuk diutarakan saat menulis lagu, dan mendukung saya dalam sesi tanya jawab “bagaimana dunia bekerja” larut malam dengan anak-anak saya yang penasaran. Saya pernah menggunakannya untuk memeriksa laporan bank saya untuk mencari potongan pajak, dan memecahkan masalah dalam sesi rekaman Logic, dan mengkritik saya tanpa ampun menggunakan semua yang diketahuinya tentang saya, hanya untuk bersenang-senang.

Saya tahu bahwa sebagai seorang penulis, saya seharusnya membenci hal ini dan melihatnya sebagai datangnya akhir zaman – tetapi saya tidak bisa. Saya menemukan alat-alat ini inspiratif dan mengagumkan. Mereka melipatgandakan kontribusi saya, memperluas kemampuan saya, dan membuka pikiran saya terhadap kemungkinan-kemungkinan baru. Saya mulai melihat GPT sebagai sumber mitra improvisasi yang ahli, terampil secara umum, dan siap untuk mencoba apa pun.

Ya, sering kali membuat frustrasi, sering kali tidak konsisten, dan Anda tidak dapat mempercayai bahwa ia tidak berbohong kepada Anda, jadi ia tentu tidak menggantikan Google dan sumber utama. Namun dengan batasan tersebut, ia tetap merupakan hal yang paling mendekati keajaiban yang pernah saya lihat, mungkin penemuan terhebat yang pernah diciptakan manusia, dan contoh teknologi yang sangat langka yang sama sekali tidak eksklusif; berapa pun usia atau tingkat pendidikan Anda, apa pun bahasa yang Anda gunakan, apa pun tingkat pemahaman Anda, GPT akan menemui Anda di mana pun Anda berada dan membawa Anda ke tempat yang Anda inginkan.

Saya belum bisa membayangkan peluang apa saja yang bisa dibuka model o1 baru ini dalam situasi saya saat ini, tetapi saya bersemangat dan ingin belajar.

Dan saya juga tertarik untuk mengetahui apa saja yang kalian, para pembaca, gunakan LLM seperti GPT, Claude, dan Gemini dalam pekerjaan dan kehidupan sehari-hari. Apakah hal-hal ini membuka peluang bagi Anda, atau justru menimbulkan masalah? Apakah ada hal-hal yang ingin Anda lakukan dengan hal-hal tersebut yang masih belum dapat ditangani oleh model saat ini? Ceritakan kepada kami tentang hal-hal tersebut. Sampai jumpa di kolom komentar!

Sumber: Buka AI



Rangga Nugraha
Rangga Nugraha adalah editor dan reporter berita di Agen BRILink dan BRI, yang mengkhususkan diri dalam berita bisnis, keuangan, dan internasional. Ia meraih gelar Sarjana Komunikasi dari Universitas Gadjah Mada (UGM). Dengan pengalaman lima tahun yang luas dalam jurnalisme, Rangga telah bekerja untuk berbagai media besar, meliput ekonomi, politik, perbankan, dan urusan perusahaan. Keahliannya adalah menghasilkan laporan berkualitas tinggi dan mengedit konten berita, menjadikannya tokoh kunci dalam tim redaksi BRI.