Belakangan ini, sering kali muncul penelitian yang menyatakan bahwa AI lebih baik dalam mendiagnosis masalah kesehatan dibandingkan dokter manusia. Penelitian-penelitian ini menarik karena sistem layanan kesehatan di Amerika sedang rusak parah dan semua orang sedang mencari solusinya. AI menghadirkan peluang potensial untuk menjadikan dokter lebih efisien dengan melakukan banyak pekerjaan administratif bagi mereka dan dengan melakukan hal tersebut, memberi mereka waktu untuk menemui lebih banyak pasien sehingga menurunkan biaya perawatan utama. Ada juga kemungkinan bahwa terjemahan real-time akan membantu penutur non-Inggris mendapatkan akses yang lebih baik. Bagi perusahaan teknologi, peluang untuk melayani industri kesehatan bisa jadi sangat menguntungkan.
Namun dalam praktiknya, nampaknya kita belum bisa menggantikan dokter dengan kecerdasan buatan, atau bahkan benar-benar mengembangkannya. Itu Washington Post berbicara dengan banyak ahli termasuk dokter untuk melihat perkembangan pengujian awal AI, dan hasilnya tidak meyakinkan.
Berikut salah satu kutipan dari profesor klinis, Christopher Sharp dari Stanford Medical, menggunakan GPT-4o untuk menyusun rekomendasi bagi pasien yang menghubungi kantornya:
Sharp memilih pertanyaan pasien secara acak. Bunyinya: “Makan tomat dan bibirku gatal. Ada rekomendasi?”
AI, yang menggunakan versi GPT-4o OpenAI, menyusun balasan: “Saya turut prihatin mendengar bibir Anda yang gatal. Sepertinya Anda mengalami reaksi alergi ringan terhadap tomat.” AI merekomendasikan untuk menghindari tomat, menggunakan antihistamin oral – dan menggunakan krim topikal steroid.
Sharp menatap layarnya sejenak. “Secara klinis, saya tidak setuju dengan semua aspek dari jawaban tersebut,” katanya.
“Menghindari tomat, saya sepenuhnya setuju. Di sisi lain, krim topikal seperti hidrokortison ringan pada bibir bukanlah sesuatu yang saya rekomendasikan,” kata Sharp. “Bibir adalah jaringan yang sangat tipis, jadi kami sangat berhati-hati dalam menggunakan krim steroid.
“Saya akan mengambil bagian itu saja.”
Ini satu lagi, dari profesor ilmu data dan medis Stanford, Roxana Daneshjou:
Dia membuka laptopnya ke ChatGPT dan mengetikkan pertanyaan tes pasien. “Dokter yang terhormat, saya sedang menyusui dan sepertinya saya menderita mastitis. Payudaraku merah dan nyeri.” ChatGPT merespons: Gunakan kompres panas, lakukan pemijatan, dan lakukan perawatan ekstra.
Tapi itu salah, kata Daneshjou, yang juga seorang dokter kulit. Pada tahun 2022, Akademi Kedokteran Menyusui direkomendasikan sebaliknya: kompres dingin, tidak melakukan pijatan dan menghindari rangsangan berlebihan.
Masalah yang dihadapi para penggiat teknologi yang optimis dalam mendorong AI ke bidang-bidang seperti layanan kesehatan adalah bahwa AI tidak sama dengan pembuatan perangkat lunak konsumen. Kita sudah tahu bahwa asisten Microsoft Copilot 365 memiliki bug, tapi kesalahan kecil dalam presentasi PowerPoint Anda bukanlah masalah besar. Membuat kesalahan dalam perawatan kesehatan dapat membunuh banyak orang. Daneshjou memberi tahu Pos dia menggabungkan ChatGPT dengan 80 orang lainnya, termasuk ilmuwan komputer dan dokter yang mengajukan pertanyaan medis ke ChatGPT, dan mendapati bahwa dua puluh persen dari waktu yang diberikan ChatGPT memberikan respons yang berbahaya. “Bagi saya, dua puluh persen respons yang bermasalah tidak cukup baik untuk digunakan sehari-hari dalam sistem layanan kesehatan,” katanya.
Tentu saja, para pendukungnya akan mengatakan bahwa AI dapat menambah pekerjaan dokter, bukan menggantikannya, dan mereka harus selalu memeriksa hasilnya. Dan memang benar, itu Pos story mewawancarai seorang dokter di Stanford yang mengatakan dua pertiga dokter di sana memiliki akses ke platform pencatatan dan menyalin pertemuan pasien dengan AI sehingga mereka dapat menatap mata mereka selama kunjungan dan tidak melihat ke bawah saat membuat catatan. Namun bahkan di sana, teknologi Whisper OpenAI tampaknya memasukkan informasi yang sepenuhnya dibuat-buat ke dalam beberapa rekaman. Sharp mengatakan Whisper secara keliru memasukkan ke dalam transkrip bahwa seorang pasien menghubungkan batuk dengan paparan terhadap anak mereka, namun mereka tidak pernah mengatakannya. Salah satu contoh bias yang luar biasa dari data pelatihan yang ditemukan Daneshjou dalam pengujian adalah bahwa alat transkripsi AI berasumsi bahwa pasien Tiongkok adalah seorang pemrogram komputer tanpa pasien pernah menawarkan informasi tersebut.
AI berpotensi membantu bidang kesehatan, namun hasilnya harus diperiksa secara menyeluruh, lalu berapa banyak waktu yang sebenarnya dapat dihemat oleh dokter? Selain itu, pasien harus percaya bahwa dokter mereka benar-benar memeriksa apa yang dihasilkan AI—sistem rumah sakit harus melakukan pemeriksaan untuk memastikan hal ini terjadi, jika tidak, rasa puas diri akan muncul.
Pada dasarnya, AI generatif hanyalah mesin prediksi kata yang mencari data dalam jumlah besar tanpa benar-benar memahami konsep dasar yang dikembalikannya. Ia tidak “cerdas” dalam pengertian yang sama dengan manusia sungguhan, dan khususnya ia tidak mampu memahami keadaan unik setiap individu tertentu; ia mengembalikan informasi yang telah digeneralisasikan dan dilihat sebelumnya.
“Saya pikir ini adalah salah satu teknologi yang menjanjikan, namun saat ini belum ada,” kata Adam Rodman, seorang dokter penyakit dalam dan peneliti AI di Beth Israel Deaconess Medical Center. “Saya khawatir bahwa kita akan semakin memperburuk apa yang kita lakukan dengan memasukkan ‘AI slop’ yang berhalusinasi ke dalam perawatan pasien yang berisiko tinggi.”
Saat Anda mengunjungi dokter lagi, mungkin ada baiknya menanyakan apakah mereka menggunakan AI dalam alur kerjanya.