Risbang

Chat GPT-3 Sebanding dengan Mahasiswa Sarjana dalam Pecahkan Masalah Penalaran

Majalah Farmasetika – Peneliti mengungkapkan Chat GPT-3, model bahasa kecerdasan buatan yang populer, bekerja sebanding dengan mahasiswa sarjana dalam memecahkan masalah penalaran yang biasanya muncul pada tes kecerdasan dan SAT. 

Peneliti mengingatkan bahwa meskipun hasilnya mengesankan, GPT-3 memiliki keterbatasan dan gagal secara spektakuler pada tugas-tugas tertentu. Mereka berharap untuk mempelajari lebih dalam proses kognitif yang mendasari yang digunakan oleh model AI semacam itu di masa depan.

Fakta-fakta kunci:

  1. Studi psikolog UCLA mengungkapkan bahwa model bahasa AI GPT-3 bekerja serupa dengan mahasiswa sarjana saat memecahkan masalah penalaran tertentu.
  2. Terlepas dari performanya, GPT-3 masih gagal secara signifikan pada tugas-tugas yang sederhana bagi manusia, seperti menggunakan alat untuk menyelesaikan tugas fisik.
  3. Para peneliti bertujuan untuk menyelidiki apakah model bahasa AI mulai ‘berpikir’ seperti manusia atau jika mereka menggunakan metode yang sama sekali berbeda yang meniru pemikiran manusia.

Penelitian oleh psikolog UCLA menunjukkan bahwa, yang mengherankan, model bahasa kecerdasan buatan GPT-3 bekerja sama baiknya dengan mahasiswa sarjana ketika diminta untuk memecahkan jenis masalah penalaran yang biasanya muncul pada tes kecerdasan dan tes standar seperti SAT. Studi ini dipublikasikan di  Nature Human Behavior 

Tanpa akses ke bagian dalam GPT-3 — yang dijaga oleh OpenAI, perusahaan yang membuatnya — para ilmuwan UCLA tidak dapat mengatakan dengan pasti bagaimana kemampuan penalarannya bekerja. Mereka juga menulis bahwa meskipun GPT-3 bekerja jauh lebih baik dari yang mereka harapkan pada beberapa tugas penalaran, alat AI yang populer masih gagal secara spektakuler pada yang lain.

Webb dan rekan-rekannya menguji kemampuan GPT-3 untuk memecahkan serangkaian masalah yang terinspirasi oleh tes yang dikenal sebagai Matriks Progresif Raven, yang meminta subjek untuk memprediksi gambar berikutnya dalam susunan bentuk yang rumit.

Pengaktifan GPT-3 untuk “melihat,” bentuknya, Webb mengonversi gambar ke format teks yang dapat diproses oleh GPT-3; pendekatan itu juga menjamin bahwa AI tidak akan pernah menemukan pertanyaan sebelumnya.

Peneliti meminta 40 mahasiswa sarjana UCLA untuk memecahkan masalah yang sama.

GPT-3 menyelesaikan 80% masalah dengan benar — jauh di atas skor rata-rata subjek manusia yang hanya di bawah 60%, tetapi masih dalam kisaran skor manusia tertinggi.

Peneliti juga mendorong GPT-3 untuk menyelesaikan serangkaian pertanyaan analogi SAT yang mereka yakini belum pernah dipublikasikan di internet — artinya pertanyaan tersebut tidak mungkin menjadi bagian dari data pelatihan GPT-3.

Pertanyaan meminta pengguna untuk memilih pasangan kata yang memiliki jenis hubungan yang sama. (Misalnya, dalam soal “’Cinta’ adalah ‘membenci’ sebagai ‘kaya’ adalah kata yang mana?,” solusinya adalah “miskin.”)

Mereka membandingkan skor GPT-3 dengan hasil publikasi skor SAT pelamar perguruan tinggi dan menemukan bahwa AI berkinerja lebih baik daripada skor rata-rata manusia.

Peneliti kemudian meminta GPT-3 dan sukarelawan siswa untuk memecahkan analogi berdasarkan cerita pendek — mendorong mereka untuk membaca satu bagian dan kemudian mengidentifikasi cerita berbeda yang menyampaikan makna yang sama. Teknologi bekerja kurang baik dibandingkan siswa dalam masalah tersebut, meskipun GPT-4, iterasi terbaru dari teknologi OpenAI, bekerja lebih baik daripada GPT-3.

Peneliti UCLA telah mengembangkan model komputer mereka sendiri, yang terinspirasi oleh kognisi manusia, dan telah membandingkan kemampuannya dengan AI komersial.

Peneliti mengatakan GPT-3 sejauh ini tidak mampu memecahkan masalah yang memerlukan pemahaman ruang fisik. Misalnya, jika diberikan deskripsi tentang seperangkat alat — katakanlah, tabung karton, gunting, dan selotip — yang dapat digunakan untuk memindahkan permen karet dari satu mangkuk ke mangkuk lainnya, GPT-3 mengusulkan solusi yang aneh.

Para ilmuwan UCLA berharap untuk mengeksplorasi apakah model pembelajaran bahasa benar-benar mulai “berpikir” seperti manusia atau melakukan sesuatu yang sama sekali berbeda yang hanya meniru pemikiran manusia.

GPT-3 mungkin berpikir seperti manusia. Tapi di sisi lain, orang tidak belajar dengan menelan seluruh internet, jadi metode pelatihannya sangat berbeda. Kami ingin tahu apakah itu benar-benar melakukannya seperti yang dilakukan orang, atau apakah itu sesuatu yang benar-benar baru — kecerdasan buatan yang nyata — yang akan luar biasa dengan sendirinya.

Untuk mengetahuinya, mereka perlu menentukan proses kognitif dasar yang digunakan model AI, yang akan memerlukan akses ke perangkat lunak dan data yang digunakan untuk melatih perangkat lunak — dan kemudian melakukan tes yang mereka yakin perangkat lunak tersebut belum pernah dilakukan.

Reference : 

Webb, T., Holyoak, K.J. and Lu, H., 2023. Emergent analogical reasoning in large language models. Nature Human Behaviour. doi.org/10.1038/s41562-023-01659-w

Ayu Dewi Widaningsih

Pharmacy Student

Share
Published by
Ayu Dewi Widaningsih

Recent Posts

Kimia Farma Hadapi Tantangan Besar: Penutupan Pabrik dan PHK Karyawan

Majalah Farmasetika - PT Kimia Farma (Persero) Tbk, perusahaan farmasi terkemuka di Indonesia, saat ini…

1 hari ago

Pertimbangan Regulasi Terkait Model Peracikan 503B ke 503A untuk Apotek Komunitas

Majalah Farmasetika - Tinjauan mengenai persyaratan bagi apotek yang mempertimbangkan untuk memesan senyawa dari fasilitas…

1 hari ago

FDA Memperluas Persetujuan Delandistrogene Moxeparvovec-rokl untuk Distrofi Otot Duchenne

Majalah Farmasetika - Setelah sebelumnya disetujui pada Juni 2023 dalam proses Accelerated Approval, FDA telah…

1 hari ago

FDA Menyetujui Epcoritamab untuk Pengobatan Limfoma Folikular Kambuhan, Refraktori

Majalah Farmasetika - Persetujuan ini menandai antibodi bispesifik pengikat sel T pertama dan satu-satunya yang…

1 hari ago

FDA Mengeluarkan Surat Tanggapan Lengkap untuk Pengajuan BLA Patritumab Deruxtecan

Majalah Farmasetika - Pengajuan lisensi biologis (BLA) untuk patritumab deruxtecan menerima surat tanggapan lengkap karena…

5 hari ago

FDA Menyetujui Ensifentrine untuk Pengobatan Pemeliharaan Penyakit Paru Obstruktif Kronis

Majalah Farmasetika - Setelah lebih dari 2 dekade, produk inhalasi pertama dengan mekanisme aksi baru…

5 hari ago