Hasil signifikansi statistik pertama telah terlihat: AI Model Bahasa Besar (LLM) tidak hanya dapat menghasilkan ide penelitian ilmiah tingkat ahli, tetapi ide-ide mereka juga lebih orisinal dan menarik dibandingkan ide-ide terbaik kita – sebagaimana dinilai oleh para ahli manusia.
Terobosan terkini dalam model bahasa besar (LLM) telah membuat para peneliti bersemangat tentang potensi untuk merevolusi penemuan ilmiah, dengan model seperti ChatGPT dan Claude dari Anthropic yang menunjukkan kemampuan untuk secara mandiri menghasilkan dan memvalidasi ide-ide penelitian baru.
Ini, tentu saja, adalah satu dari banyak hal yang diasumsikan banyak orang tidak akan pernah bisa digantikan oleh AI dari manusia; kemampuan untuk menghasilkan pengetahuan baru dan melakukan penemuan-penemuan ilmiah baru, alih-alih menggabungkan pengetahuan yang sudah ada dari data pelatihannya.
Namun, seperti halnya ekspresi artistik, komposisi musik, pengkodean, pemahaman subteks dan bahasa tubuh, serta sejumlah kemampuan baru lainnya, AI multimoda masa kini tampaknya mampu menghasilkan penelitian baru – rata-rata lebih baru daripada rekan-rekan manusia mereka.
Belum ada penelitian sebelumnya yang dilakukan di bidang ini hingga baru-baru ini, ketika lebih dari 100 pakar penelitian pemrosesan bahasa alami (NLP) (bergelar Doktor dan pascadoktoral dari 36 lembaga berbeda yang terkemuka) beradu langsung dengan ‘agen ideasi’ yang dihasilkan LLM untuk melihat ide penelitian siapa yang lebih orisinal, menarik, dan layak – sebagaimana dinilai oleh para pakar manusia.
Dalam makalah baru kami: https://t.co/xjhjUC1j8J
Kami merekrut 49 peneliti NLP ahli untuk menulis ide-ide baru pada 7 topik NLP.
Kami membangun agen LLM untuk menghasilkan ide penelitian pada 7 topik yang sama.
Setelah itu, kami merekrut 79 pakar untuk meninjau secara membabi buta semua gagasan manusia dan LLM.
2/ foto.twitter.com/GMidcFZgkQ
—CLS (@ChengleiSi) 9 Sep 2024
Bidang NLP adalah cabang kecerdasan buatan yang menangani komunikasi antara manusia dan AI, dalam bahasa yang dapat ‘dipahami’ oleh kedua belah pihak, dalam hal sintaksis dasar, tetapi juga nuansa – dan yang terbaru, dalam hal nada verbal dan intonasi emosional.
49 pakar manusia menulis ide tentang 7 topik NLP, sementara model LLM yang dilatih oleh para peneliti menghasilkan ide tentang 7 topik yang sama. Studi tersebut membayar US$300 untuk setiap ide ditambah bonus sebesar $1.000 untuk lima ide manusia teratas dalam upaya untuk memberi insentif kepada manusia agar menghasilkan ide yang sah, mudah diikuti, dan dijalankan.
Setelah selesai, LLM digunakan untuk menstandardisasi gaya penulisan setiap entri yang diserahkan sambil mempertahankan konten asli dalam rangka menyeimbangkan situasi, dengan kata lain, menjaga penelitian tetap tertutup sebisa mungkin.
Ketika kami menyebut “pakar”, yang kami maksud adalah orang-orang terbaik di bidangnya.
Berasal dari 36 institusi berbeda, peserta kami sebagian besar adalah PhD dan postdocs.
Sebagai metrik proksi, penulis ide kami memiliki jumlah kutipan rata-rata 125, dan pengulas kami memiliki 327.
3/ foto.twitter.com/L2ihAAtJRt
—CLS (@ChengleiSi) 9 Sep 2024
Semua kiriman kemudian ditinjau oleh 79 pakar manusia yang direkrut dan penilaian buta terhadap semua ide penelitian dilakukan. Panel tersebut mengajukan 298 tinjauan, yang memberikan setiap ide antara dua hingga empat tinjauan independen.
Dan tentu saja, dalam hal kebaruan dan kegembiraan, AI diuji secara signifikan lebih baik daripada peneliti manusia. Mereka juga memiliki peringkat sedikit lebih rendah daripada manusia dalam hal kelayakan, dan sedikit lebih tinggi dalam hal efektivitas – tetapi tidak satu pun dari efek ini ditemukan signifikan secara statistik.
Studi ini juga mengungkap beberapa kelemahan, seperti kurangnya keberagaman dalam LLM dalam menghasilkan ide serta keterbatasannya dalam mengevaluasi diri. Bahkan dengan arahan yang jelas untuk tidak mengulanginya, LLM akan segera melakukannya. LLM juga tidak dapat meninjau dan menilai ide dengan konsistensi yang tinggi dan mendapat skor rendah dalam hal kesesuaian dengan penilaian manusia.
Studi ini juga mengakui bahwa sisi manusiawi dalam menilai “orisinalitas” sebuah ide agak subjektif, bahkan dengan panel ahli.
Untuk membuktikan teori bahwa LLM mungkin atau mungkin tidak lebih baik dalam potensi penemuan ilmiah yang otonom, para peneliti akan merekrut lebih banyak peserta ahli. Mereka mengusulkan studi lanjutan yang lebih komprehensif, di mana ide-ide yang dihasilkan oleh AI dan manusia dikembangkan sepenuhnya menjadi proyek, yang memungkinkan eksplorasi yang lebih mendalam tentang dampaknya dalam skenario dunia nyata.
Namun, temuan awal ini tentu saja menyadarkan. Umat manusia mendapati dirinya berhadapan dengan musuh baru yang aneh. AI model bahasa menjadi alat yang sangat canggih – tetapi masih sangat tidak dapat diandalkan dan rentan terhadap apa yang disebut perusahaan AI sebagai “halusinasi,” dan apa yang mungkin disebut orang lain sebagai “omong kosong.”
Mereka dapat memindahkan tumpukan dokumen – tetapi tentu saja tidak ada ruang untuk “halusinasi” dalam ketelitian metode ilmiah. Sains tidak dapat dibangun di atas fondasi omong kosong. Sudah cukup memalukan bahwa menurut beberapa perkiraansetidaknya 10% dari makalah penelitian saat ini ditulis bersama – paling tidak – oleh AI.
Di sisi lain, kita tidak dapat meremehkan potensi AI untuk secara radikal mempercepat kemajuan di berbagai bidang tertentu – sebagaimana dibuktikan oleh sistem GNoME milik Deepmind, yang berhasil menyelesaikan penemuan material selama sekitar 800 tahun dalam hitungan bulan, dan menghasilkan resep untuk sekitar 380.000 kristal anorganik baru yang dapat memiliki potensi revolusioner di segala jenis bidang.
Ini adalah teknologi yang paling cepat berkembang yang pernah dilihat manusia; masuk akal untuk mengharapkan bahwa banyak kekurangannya akan ditambal dan diperbaiki dalam beberapa tahun ke depan. Banyak peneliti AI percaya bahwa kita sedang mendekati kecerdasan super umum – titik di mana AI generalis akan menyalip pengetahuan ahli di hampir semua bidang.
Tentu saja merupakan perasaan yang aneh menyaksikan penemuan terbesar kita dengan cepat menguasai begitu banyak hal yang kita pikir membuat kita istimewa – termasuk kemampuan untuk menghasilkan ide-ide baru. Kecerdasan manusia tampaknya membuat manusia terpojok, seperti dewa-dewa lama yang terus-menerus kekurangan.
Meski begitu, dalam waktu dekat, kita dapat membuat kemajuan terbaik sebagai sebuah simbiosis, dengan kecerdasan organik dan buatan terbaik yang bekerja sama, selama kita dapat menjaga keselarasan tujuan kita.
Namun jika ini adalah sebuah kompetisi, ya, AI: 1, manusia: 0 untuk babak ini.
Sumber: Chenglei Ya melalui X