Majalah Farmasetika – Peneliti mengungkapkan Chat GPT-3, model bahasa kecerdasan buatan yang populer, bekerja sebanding dengan mahasiswa sarjana dalam memecahkan masalah penalaran yang biasanya muncul pada tes kecerdasan dan SAT.
Peneliti mengingatkan bahwa meskipun hasilnya mengesankan, GPT-3 memiliki keterbatasan dan gagal secara spektakuler pada tugas-tugas tertentu. Mereka berharap untuk mempelajari lebih dalam proses kognitif yang mendasari yang digunakan oleh model AI semacam itu di masa depan.
Fakta-fakta kunci:
Penelitian oleh psikolog UCLA menunjukkan bahwa, yang mengherankan, model bahasa kecerdasan buatan GPT-3 bekerja sama baiknya dengan mahasiswa sarjana ketika diminta untuk memecahkan jenis masalah penalaran yang biasanya muncul pada tes kecerdasan dan tes standar seperti SAT. Studi ini dipublikasikan di Nature Human Behavior
Tanpa akses ke bagian dalam GPT-3 — yang dijaga oleh OpenAI, perusahaan yang membuatnya — para ilmuwan UCLA tidak dapat mengatakan dengan pasti bagaimana kemampuan penalarannya bekerja. Mereka juga menulis bahwa meskipun GPT-3 bekerja jauh lebih baik dari yang mereka harapkan pada beberapa tugas penalaran, alat AI yang populer masih gagal secara spektakuler pada yang lain.
Webb dan rekan-rekannya menguji kemampuan GPT-3 untuk memecahkan serangkaian masalah yang terinspirasi oleh tes yang dikenal sebagai Matriks Progresif Raven, yang meminta subjek untuk memprediksi gambar berikutnya dalam susunan bentuk yang rumit.
Pengaktifan GPT-3 untuk “melihat,” bentuknya, Webb mengonversi gambar ke format teks yang dapat diproses oleh GPT-3; pendekatan itu juga menjamin bahwa AI tidak akan pernah menemukan pertanyaan sebelumnya.
Peneliti meminta 40 mahasiswa sarjana UCLA untuk memecahkan masalah yang sama.
GPT-3 menyelesaikan 80% masalah dengan benar — jauh di atas skor rata-rata subjek manusia yang hanya di bawah 60%, tetapi masih dalam kisaran skor manusia tertinggi.
Peneliti juga mendorong GPT-3 untuk menyelesaikan serangkaian pertanyaan analogi SAT yang mereka yakini belum pernah dipublikasikan di internet — artinya pertanyaan tersebut tidak mungkin menjadi bagian dari data pelatihan GPT-3.
Pertanyaan meminta pengguna untuk memilih pasangan kata yang memiliki jenis hubungan yang sama. (Misalnya, dalam soal “’Cinta’ adalah ‘membenci’ sebagai ‘kaya’ adalah kata yang mana?,” solusinya adalah “miskin.”)
Mereka membandingkan skor GPT-3 dengan hasil publikasi skor SAT pelamar perguruan tinggi dan menemukan bahwa AI berkinerja lebih baik daripada skor rata-rata manusia.
Peneliti kemudian meminta GPT-3 dan sukarelawan siswa untuk memecahkan analogi berdasarkan cerita pendek — mendorong mereka untuk membaca satu bagian dan kemudian mengidentifikasi cerita berbeda yang menyampaikan makna yang sama. Teknologi bekerja kurang baik dibandingkan siswa dalam masalah tersebut, meskipun GPT-4, iterasi terbaru dari teknologi OpenAI, bekerja lebih baik daripada GPT-3.
Peneliti UCLA telah mengembangkan model komputer mereka sendiri, yang terinspirasi oleh kognisi manusia, dan telah membandingkan kemampuannya dengan AI komersial.
Peneliti mengatakan GPT-3 sejauh ini tidak mampu memecahkan masalah yang memerlukan pemahaman ruang fisik. Misalnya, jika diberikan deskripsi tentang seperangkat alat — katakanlah, tabung karton, gunting, dan selotip — yang dapat digunakan untuk memindahkan permen karet dari satu mangkuk ke mangkuk lainnya, GPT-3 mengusulkan solusi yang aneh.
Para ilmuwan UCLA berharap untuk mengeksplorasi apakah model pembelajaran bahasa benar-benar mulai “berpikir” seperti manusia atau melakukan sesuatu yang sama sekali berbeda yang hanya meniru pemikiran manusia.
GPT-3 mungkin berpikir seperti manusia. Tapi di sisi lain, orang tidak belajar dengan menelan seluruh internet, jadi metode pelatihannya sangat berbeda. Kami ingin tahu apakah itu benar-benar melakukannya seperti yang dilakukan orang, atau apakah itu sesuatu yang benar-benar baru — kecerdasan buatan yang nyata — yang akan luar biasa dengan sendirinya.
Untuk mengetahuinya, mereka perlu menentukan proses kognitif dasar yang digunakan model AI, yang akan memerlukan akses ke perangkat lunak dan data yang digunakan untuk melatih perangkat lunak — dan kemudian melakukan tes yang mereka yakin perangkat lunak tersebut belum pernah dilakukan.
Reference :
Webb, T., Holyoak, K.J. and Lu, H., 2023. Emergent analogical reasoning in large language models. Nature Human Behaviour. doi.org/10.1038/s41562-023-01659-w
Majalah Farmasetika - Kementerian Kesehatan Republik Indonesia resmi mengesahkan Susunan Organisasi Kolegium Farmasi periode 2024-2028 melalui Keputusan…
Majalah Farmasetika - Yogyakarta, 5 Desember 2024 – Upaya untuk memperkokoh eksistensi dan profesionalisme tenaga…
Majalah Farmasetika - Anggota Dewan Perwakilan Rakyat (DPR) RI Komisi III, Muhammad Rofiqi, menyampaikan klarifikasi…
Majalah Farmasetika - Metformin, salah satu obat diabetes paling populer di dunia, telah lama dikenal…
Majalah Farmasetika - Anggota Komisi III DPR RI Dapil 1 Kalimantan Selatan, dan juga Ketua…
Majalah Farmasetika - Pedagang Besar Farmasi (PBF) adalah perusahaan yang memiliki izin untuk menyediakan, menyimpan,…