Mempersiapkan pasien kanker karena keputusan sulit adalah tugas seorang ahli onkologi. Namun mereka tidak selalu ingat untuk melakukannya. Di Sistem Kesehatan Universitas Pennsylvania, dokter didorong untuk berbicara tentang perawatan pasien dan preferensi akhir kehidupan oleh algoritma kecerdasan buatan yang memprediksi kemungkinan kematian.
Namun hal ini jauh dari sekedar alat untuk mengatur dan melupakannya. Pemeriksaan teknologi rutin mengungkapkan bahwa algoritme tersebut rusak selama pandemi Covid-19, sehingga membuat 7 poin persentase lebih buruk dalam memprediksi siapa yang akan meninggal, menurut sebuah penelitian pada tahun 2022.
Kemungkinan besar ada dampak dalam kehidupan nyata. Ravi Parikh, seorang ahli onkologi Universitas Emory yang merupakan penulis utama studi tersebut, mengatakan kepada KFF Health News bahwa alat tersebut gagal ratusan kali dalam mendorong dokter untuk memulai diskusi penting tersebut – mungkin menghindari kemoterapi yang tidak perlu – dengan pasien yang membutuhkannya.
Dia yakin beberapa algoritma yang dirancang untuk meningkatkan layanan medis melemah selama ini pandemibukan hanya yang ada di Penn Medicine. “Banyak institusi yang tidak secara rutin memantau kinerja” produk mereka, kata Parikh.
Gangguan algoritma adalah salah satu aspek dari dilema yang telah lama diketahui oleh para ilmuwan komputer dan dokter, namun hal ini mulai membingungkan para eksekutif dan peneliti rumah sakit: Sistem kecerdasan buatan memerlukan pemantauan dan penempatan staf yang konsisten agar dapat berfungsi dengan baik.
Intinya: Anda memerlukan manusia, dan lebih banyak mesin, untuk memastikan alat-alat baru tidak menimbulkan kekacauan.
“Semua orang berpikir bahwa AI akan membantu kita dengan akses dan kapasitas serta meningkatkan layanan dan sebagainya,” kata Nigam Shah, kepala ilmuwan data di Stanford Health Care. “Semua itu bagus dan bagus, tapi kalau biaya perawatannya naik 20%, apakah itu bisa dilakukan?”
Pejabat pemerintah khawatir rumah sakit kekurangan sumber daya untuk menerapkan teknologi ini. “Saya telah melihat jauh dan luas,” kata Komisaris FDA Robert Califf pada panel agensi mengenai AI baru-baru ini. “Saya tidak percaya ada satu sistem kesehatan pun di Amerika Serikat yang mampu memvalidasi algoritma AI yang diterapkan dalam sistem perawatan klinis.”
AI sudah tersebar luas dalam pelayanan kesehatan. Algoritma digunakan untuk memprediksi risiko kematian atau kemunduran pasien, untuk menyarankan diagnosis atau triase pasien, untuk mencatat dan merangkum kunjungan ke rumah sakit. menyelamatkan pekerjaan dokter dan untuk menyetujui klaim asuransi.
Jika penginjil teknologi benar, teknologi akan ada di mana-mana – dan menguntungkan. Perusahaan investasi Bessemer Venture Partners telah mengidentifikasi sekitar 20 startup AI yang berfokus pada kesehatan akan menghasilkan pendapatan $10 juta setiap tahunnya. FDA telah menyetujui hampir seribu produk dengan kecerdasan buatan.
Mengevaluasi apakah produk ini berfungsi merupakan sebuah tantangan. Mengevaluasi apakah mereka terus bekerja – atau telah mengembangkan perangkat lunak yang setara dengan gasket bocor atau mesin bocor – bahkan lebih rumit lagi.
Ambil contoh penelitian terbaru di Yale Medicine yang mengevaluasi enam “sistem peringatan dini”, yang mengingatkan dokter ketika kondisi pasien cenderung memburuk dengan cepat. Sebuah superkomputer menjalankan data selama beberapa hari, kata Dana Edelson, seorang dokter di Universitas Chicago dan salah satu pendiri perusahaan yang menyediakan satu algoritma untuk penelitian tersebut. Prosesnya membuahkan hasil, menunjukkan perbedaan kinerja yang besar di antara keenam produk tersebut.
Tidak mudah bagi rumah sakit dan penyedia layanan untuk memilih algoritma terbaik untuk kebutuhan mereka. Rata-rata dokter tidak memiliki superkomputer, dan tidak ada Laporan Konsumen untuk AI.
“Kami tidak memiliki standar,” kata Jesse Ehrenfeld, yang pernah menjabat sebagai presiden American Medical Association. “Tidak ada yang dapat saya tunjukkan kepada Anda hari ini yang merupakan standar mengenai bagaimana Anda mengevaluasi, memantau, melihat kinerja suatu model suatu algoritma, baik yang didukung AI atau tidak, ketika diterapkan.”
Mungkin produk AI yang paling umum di kantor dokter disebut dokumentasi ambien, yaitu asisten berteknologi tinggi yang mendengarkan dan merangkum kunjungan pasien. Sepanjang tahun ini, investor di Rock Health telah melacak $353 juta yang mengalir ke perusahaan dokumentasi ini. Namun, Ehrenfeld berkata, “Saat ini belum ada standar untuk membandingkan keluaran alat-alat ini.”
Dan itu menjadi masalah, bahkan kesalahan kecil pun bisa berakibat fatal. Sebuah tim di Universitas Stanford mencoba menggunakan model bahasa besar – teknologi yang mendasari alat AI populer seperti ChatGPT – untuk merangkum riwayat kesehatan pasien. Mereka membandingkan hasilnya dengan apa yang akan ditulis oleh dokter.
“Bahkan dalam kasus terbaik sekalipun, model tersebut memiliki tingkat kesalahan sebesar 35%,” kata Shah dari Stanford. Dalam dunia kedokteran, “saat Anda sedang menulis ringkasan dan Anda lupa satu kata, seperti ‘demam’ — maksud saya, itu masalahnya, bukan?”
Terkadang alasan kegagalan algoritma cukup logis. Misalnya, perubahan pada data dasar dapat mengikis efektivitasnya, seperti ketika rumah sakit mengganti penyedia laboratorium.
Namun terkadang, jebakan itu terbuka tanpa alasan yang jelas.
Sandy Aronson, seorang eksekutif teknologi di program pengobatan pribadi Mass General Brigham di Boston, mengatakan bahwa ketika timnya menguji satu aplikasi yang dimaksudkan untuk membantu konselor genetik menemukan literatur yang relevan tentang varian DNA, produk tersebut mengalami “nondeterminisme” – yaitu, ketika ditanya hal yang sama. pertanyaan berkali-kali dalam waktu singkat, hasilnya berbeda-beda.
Aronson sangat antusias dengan potensi model bahasa besar untuk merangkum pengetahuan bagi konselor genetika yang terbebani secara berlebihan, namun “teknologinya perlu ditingkatkan.”
Jika metrik dan standar jarang ditemukan dan kesalahan dapat muncul karena alasan yang aneh, apa yang harus dilakukan oleh institusi? Investasikan banyak sumber daya. Di Stanford, kata Shah, dibutuhkan delapan hingga 10 bulan dan 115 jam kerja hanya untuk mengaudit dua model untuk keadilan dan keandalan.
Para ahli yang diwawancarai oleh KFF Health News melontarkan gagasan tentang kecerdasan buatan yang memantau kecerdasan buatan, dan beberapa pakar data (manusia) memantau keduanya. Semua pihak mengakui bahwa hal ini akan mengharuskan organisasi mengeluarkan lebih banyak uang – sebuah tantangan yang sulit mengingat realitas anggaran rumah sakit dan terbatasnya pasokan spesialis teknologi AI.
“Sangat menyenangkan memiliki visi di mana kita mencairkan gunung es agar ada model yang memantau modelnya,” kata Shah. “Tetapi apakah itu benar-benar yang saya inginkan? Berapa banyak lagi orang yang kita perlukan?”
Berita Kesehatan KFF adalah ruang redaksi nasional yang menghasilkan jurnalisme mendalam tentang isu-isu kesehatan dan merupakan salah satu program operasi inti di KFF — sumber independen untuk penelitian kebijakan kesehatan, jajak pendapat, dan jurnalisme.