swyx di sini: Kami bangga menampilkan postingan tamu pertama kami tahun 2025! Hal ini telah memicu diskusi besar gdb, BenDan Dan S halaman. Lihat juga diskusi YouTube kami.
Sejak peluncuran o1 pada bulan Oktober dan pengumuman o1 pro/o3 pada bulan Desember, banyak yang kesulitan menentukan pilihannya, baik positif Dan negatif. Kami mengambil sebuah pendirian yang sangat positif di titik nadir sentimen o1 Pro dan memetakan kemungkinan yang diperlukan OpenAI untuk memiliki produk agen senilai $2000/bulan (dikabarkan akan diluncurkan dalam beberapa minggu ke depan). Sejak itu, o1 telah duduk dengan nyaman di #1 di SEMUA papan peringkat LMArena (segera menjadi default Kontrol Gaya seperti yang kita bahas di pod).
Kami telah mengikuti karya Ben Hylak di Apple VisionOS selama beberapa waktu, dan mengundangnya untuk melakukannya berbicara di Pameran Dunia. Dia telah diluncurkan Analisis Fajardan terus menerbitkan pemikiran tanpa filter tentang o1 — awalnya sebagai orang yang sangat skeptis, dan perlahan-lahan menjadi pengguna sehari-hari. Kami cinta pengubah pikiran dalam kedua maknanya, dan berpikir bahwa percakapan yang sama sedang terjadi di seluruh dunia ketika orang-orang berjuang untuk beralih dari paradigma obrolan ke dunia penalaran baru yang berani dan produk AI prosumer senilai $x00/bulan seperti Devin (berbicara di WF, sekarang GA). Inilah pemikiran kami.
PSA: Karena banyaknya permintaan (>15x aplikasi:slot), kami menutup CFP KTT Insinyur AI besok. Panggilan terakhir! Terima kasih, kami akan segera menghubungi semuanya!
Bagaimana saya berubah dari membenci o1 menjadi menggunakannya setiap hari untuk pertanyaan terpenting saya?
Saya belajar cara menggunakannya.
Kapan o1 pro diumumkanSaya berlangganan tanpa bergeming. Untuk membenarkan label harga $200/bln, ia hanya perlu menyediakan 1-2 jam Insinyur sebulan (semakin sedikit kita harus menyewa fajarsemakin baik!)
Namun di penghujung hari yang dipenuhi dengan upaya sungguh-sungguh untuk membuat model tersebut berhasil – saya menyimpulkan hal itu itu sampah.
Setiap kali saya mengajukan pertanyaan, saya harus menunggu 5 menit hanya untuk disambut dengan dinding besar gobbledygook yang saling bertentangan, lengkap dengan diagram arsitektur yang tidak diminta + daftar pro/kontra.
SAYA tweet sebanyak itu dan banyak orang yang setuju – namun yang lebih menarik bagi saya, beberapa orang sangat tidak setuju. Faktanya, mereka terkejut melihat betapa bagusnya itu.
Tentu saja, orang-orang sering kali menjadi sangat antusias dengan OpenAI setelah peluncurannya (ini adalah strategi terbaik kedua untuk menjadi viral, setelah menjadi negatif.)
Tapi ini terasa berbeda – pendapat ini datang dari orang-orang yang berada jauh di dalam parit.
Semakin saya mulai berbicara dengan orang-orang yang tidak setuju dengan saya, semakin saya menyadari bahwa saya salah:
Saya menggunakan o1 seperti model obrolan — tetapi o1 bukan model obrolan.
Jika o1 bukan model obrolan — apakah itu?
Saya menganggapnya seperti “pembuat laporan”. Jika Anda memberikan konteks yang cukup, dan memberi tahu apa yang ingin Anda hasilkan, sering kali solusinya akan berhasil dalam satu kesempatan.
Catatan swyx: OpenAI melakukannya mempublikasikan saran tentang meminta o1tapi menurut kami artikel ini tidak lengkap, dan Anda dapat melihat artikel ini sebagai “Panduan yang Hilang” untuk pengalaman langsung menggunakan o1 dan o1 pro dalam praktiknya.
Berikan banyak konteks. Apa pun menurut Anda yang saya maksud dengan “ton” — 10x lipatnya.
Saat Anda menggunakan model obrolan seperti Claude 3.5 Soneta atau 4o, Anda sering kali memulai dengan pertanyaan sederhana dan konteks tertentu. Jika model memerlukan lebih banyak konteks, model tersebut akan sering menanyakannya kepada Anda (atau akan terlihat jelas dari keluarannya).
(Menempatkan konteks di bagian akhir lebih baik untuk model OpenAI – sesuai dokumen OpenAI sendiri)
Anda mengulangi model tersebut bolak-balik, memperbaikinya + memperluas persyaratan, hingga keluaran yang diinginkan tercapai. Ini hampir seperti tembikar. Model obrolan pada dasarnya menarik konteks dari Anda melalui ini bolak-balik. Seiring waktu, pertanyaan kita menjadi lebih cepat + lebih malas – semalas mungkin namun tetap mendapatkan hasil yang bagus.
o1 hanya akan menerima pertanyaan malas begitu saja dan tidak mencoba menarik konteksnya dari Anda. Sebaliknya, Anda perlu melakukannya dorong konteks sebanyak yang Anda bisa ke o1.
Meskipun Anda hanya menanyakan pertanyaan teknik sederhana:
-
Jelaskan semua yang telah Anda coba tetapi tidak berhasil
-
Tambahkan dump lengkap dari semua skema database Anda
-
Jelaskan apa yang dilakukan perusahaan Anda, seberapa besar perusahaan tersebut (dan jelaskan istilah spesifik perusahaan)
Singkatnya, perlakukan o1 seperti karyawan baru. Berhati-hatilah Kesalahan o1 mencakup penalaran tentang seberapa banyak alasannya. Terkadang varians gagal dipetakan secara akurat ke tingkat kesulitan tugas. misalnya jika tugasnya sangat sederhana, sering kali tugas tersebut akan menjadi sia-sia tanpa alasan. Catatan: o1 API memungkinkan Anda melakukannya tentukan upaya_penalaran rendah/sedang/tinggitapi itu tidak diekspos ke pengguna ChatGPT.
Tips agar lebih mudah memberikan konteks o1
Saya sarankan menggunakan Aplikasi Memo Suara di mac/ponsel Anda. Saya hanya menjelaskan seluruh ruang masalah selama 1-2 menit, lalu menempelkan transkrip tersebut.
Saya sebenarnya memiliki catatan di mana saya menyimpan segmen konteks yang panjang untuk digunakan kembali.
swyx: Saya menggunakan Bisikan Ceroboh oleh Sarav dari LS Discord
Asisten AI yang muncul di dalam produk sering kali dapat mempermudah ekstraksi ini. Misalnya, jika Anda menggunakan Supabase, coba minta Asisten Supabase untuk membuang/mendeskripsikan semua tabel/RPC yang relevan/dll.
Setelah Anda mengisi model dengan konteks sebanyak mungkin — fokuslah untuk menjelaskan keluaran yang Anda inginkan.
Pada sebagian besar model, kami telah dilatih untuk memberi tahu model tersebut Bagaimana kami ingin itu menjawab kami. misalnya “Anda adalah seorang insinyur perangkat lunak yang ahli. Pikirkan perlahan + hati-hati”
Ini kebalikan dari cara saya meraih kesuksesan dengan o1. Saya tidak menginstruksikannya di Bagaimana — hanya itu Apa. Kemudian biarkan o1 mengambil alih dan merencanakan serta menyelesaikan langkahnya sendiri. Inilah gunanya alasan otonom, dan sebenarnya bisa jauh lebih cepat dibandingkan jika Anda meninjau dan mengobrol secara manual sebagai “manusia yang terlibat”.
tip pro swyx: mengembangkan kriteria yang sangat baik mengenai apa yang Anda anggap “baik” vs “buruk” akan membantu Anda memberi model cara untuk mengevaluasi keluarannya sendiri dan memperbaiki diri/memperbaiki kesalahannya sendiri. Intinya kamu memindahkan LLM sebagai Hakim ke dalam prompt dan membiarkan o1 menjalankannya kapan pun diperlukan.
Sebagai bonus, ini pada akhirnya memberi Anda evaluator LLM sebagai Hakim yang dapat Anda gunakan Penyempurnaan Penguatan padahal itu GA.
Ini mengharuskan Anda untuk melakukannya benar-benar tahu persis apa yang Anda inginkan (dan Anda harus benar-benar meminta satu keluaran spesifik per prompt — ini hanya dapat beralasan di awal!)
Kedengarannya lebih mudah dari yang sebenarnya! Apakah saya ingin o1 mengimplementasikan arsitektur tertentu dalam produksi, membuat aplikasi pengujian minimal, atau sekadar menjelajahi opsi dan membuat daftar pro/kontra? Ini semua adalah pertanyaan yang sangat berbeda.
o1 sering kali menjelaskan konsep secara default dengan sintaksis bergaya laporan — lengkap dengan judul dan subjudul bernomor. Jika Anda ingin melewatkan penjelasan dan menampilkan file lengkap — Anda hanya perlu mengatakannya secara eksplisit.
Sejak mempelajari cara menggunakan o1, saya sangat terkejut dengan kemampuannya menghasilkan jawaban yang benar untuk pertama kalinya. Ini jauh lebih baik dalam segala hal (selain biaya/latensi). Berikut adalah beberapa momen kecil di mana hal ini sangat menonjol:
Apa yang dilakukan o1 dengan baik:
-
Memotret seluruh/beberapa file dengan sempurna: Sejauh ini, ini adalah kemampuan o1 yang paling mengesankan. Saya menyalin/menempelkan banyak sekali kode, banyak sekali konteks tentang apa yang saya buat, dan itu akan sepenuhnya memotret seluruh file (atau file!), biasanya bebas dari kesalahan, mengikuti pola yang ada yang saya miliki di saya basis kode.
-
Berhalusinasi Lebih Sedikit: Secara umum, hal ini sepertinya tidak terlalu membingungkan. Misalnya, o1 benar-benar menggunakan bahasa kueri yang dipesan lebih dahulu (seperti ClickHouse dan New Relic), di mana Claude sering mengacaukan sintaksis untuk Postgres.
-
Diagnosa Medis: Pacar saya adalah seorang dokter kulit — jadi setiap kali ada teman atau siapa pun di keluarga besar saya yang memiliki masalah kulit, mereka pasti akan mengiriminya fotonya! Sekadar iseng, saya mulai menanyakan o1 secara paralel. Biasanya jawabannya sangat mendekati jawaban yang benar — mungkin 3/5 kali lipat. Lebih bermanfaat bagi profesional medis — itu hampir selalu memberikan diagnosis banding yang sangat akurat.
-
Menjelaskan Konsep: Saya telah menemukan bahwa ia sangat baik dalam menjelaskan konsep-konsep teknik yang sangat sulit, dengan contoh-contoh. Ini hampir seperti menghasilkan keseluruhan artikel.
Saat saya mengerjakan keputusan arsitektur yang sulit, saya sering kali harus membuat beberapa rencana, dengan pro/kontra untuk masing-masing rencana, dan bahkan membandingkan rencana tersebut. Saya akan menyalin/menempelkan tanggapan sebagai PDF, dan membandingkannya — hampir seperti saya sedang mempertimbangkan proposal.
-
Bonus: Evaluasi. Saya secara historis sangat skeptis dalam menggunakan LLM sebagai Juri untuk Evaluasi, karena pada dasarnya model juri sering kali mengalami mode kegagalan yang sama seperti yang menghasilkan keluaran. Namun, o1 menunjukkan banyak hal yang menjanjikan – seringkali ia mampu menentukan apakah suatu generasi benar atau salah dengan konteks yang sangat sedikit.
Apa yang o1 tidak berfungsi dengan baik (belum):
-
Menulis dengan suara/gaya tertentu: Tidak, saya tidak menggunakan o1 untuk menulis posting ini 🙂
Menurut saya, menulis apa pun sangat buruk, terutama dengan suara atau gaya tertentu. Ini memiliki gaya laporan akademis/perusahaan yang ingin diikuti. Saya pikir ada begitu banyak alasan yang membiaskan nada ke arah itu, sangat sulit untuk melepaskan diri dari itu.
Berikut adalah contoh saya mencoba membuatnya menulis postingan ini – ini setelah bolak-balik – ia hanya ingin menghasilkan laporan sekolah yang hambar.
-
Membangun Seluruh Aplikasi: o1 sangat ahli dalam mengambil satu gambar seluruh file. meskipun demikian, meskipun ada beberapa demo… optimis… yang mungkin Anda lihat di twitter — o1 tidak akan membuat SaaS lengkap untuk Anda, setidaknya tidak dengan a banyak dari iterasi. Tapi itu Bisa cukup banyak fitur sekali pakai, terutama jika itu fitur front-end atau backend sederhana.
Latensi secara mendasar mengubah pengalaman kita terhadap suatu produk.
swyx: kami setuju – sebanyak itu 6 tingkat latensi AI sudah umum sekarang.
Pertimbangkan perbedaan antara email, email, dan SMS — yang utama hanyalah latensi. Pesan suara vs. panggilan telepon — latensi. Video vs Zoom — latensi. Dan sebagainya.
Saya menyebut o1 sebagai “pembuat laporan” karena ini jelas bukan model obrolan — lebih terasa seperti email.
Hal ini belum terwujud dalam desain produk o1. Saya ingin melihat desainnya tercermin secara lebih jujur di antarmuka.
Ini beberapa spesifik AI Kiat UX untuk siapa pun yang membuat produk berbasis o1:
-
Mempermudah untuk melihat hierarki respons (pikirkan a daftar isi mini)
-
Demikian pula, buat hierarki lebih mudah dinavigasi. Karena setiap permintaan biasanya lebih besar dari tinggi jendela, saya akan mengambil pendekatan seperti Kebingungan di mana setiap halaman pertanyaan/jawaban mendapat bagian vs. gulir bentuk bebas. Dalam sebuah jawaban, hal-hal seperti header lengket, header yang dapat dilipat, dll. dapat sangat membantu)
-
Permudah pengelolaan dan lihat konteks yang Anda berikan ke model. (Ironisnya, UI Claude melakukan pekerjaan ini dengan lebih baik — saat Anda menempelkan teks yang panjang, teks tersebut akan ditampilkan sebagai lampiran kecil). Saya juga menemukan bahwa Proyek ChatGPT tidak berfungsi sebaik proyek Claude, jadi saya menyalin dan menempelkannya banyak.
Catatan tambahan:
-
Secara terpisah ChatGPT adalah BENAR-BENAR kereta ketika datang ke o1. Deskripsi penalarannya lucu, sering kali gagal dibuat, dan paling sering tidak berfungsi di aplikasi seluler.
Saya sangat bersemangat melihat bagaimana model ini benar-benar digunakan.
Saya pikir o1 akan memungkinkan produk tertentu untuk pertama kalinya — misalnya, produk yang dapat memanfaatkan kecerdasan latar belakang berlatensi tinggi dan berjalan lama.
Tugas seperti apa yang pengguna rela tunggu selama 5 menit? Satu jam? Sehari? 3-5 hari kerja?
Banyak, menurut saya, jika dirancang dengan benar.
Ketika model menjadi lebih mahal, eksperimen menjadi lebih sulit untuk dibenarkan. Kini lebih mudah membuang $1000 dolar hanya dalam hitungan menit.
o1-preview dan o1-mini mendukung streaming, tetapi tidak mendukung pembuatan terstruktur atau perintah sistem. o1 mendukung pembuatan terstruktur dan perintah sistem, tetapi belum mendukung streaming.
Mengingat berapa lama waktu yang dibutuhkan untuk merespons, streaming terasa seperti suatu keharusan.
Akan sangat menyenangkan melihat apa yang sebenarnya dilakukan pengembang dengan model tersebut saat mereka mulai bekerja pada tahun 2025.
Setelah sukses dengan postingan ini, kami ditindaklanjuti di YouTube:
swyx: Terima kasih Ben! Steker terakhir – jika ya agen bangunan dengan o1, atau mengelola tim insinyur AI, Anda harus melamar AIES NYC.