Ketika Dimitris Papailiopoulos pertama kali meminta ChatGPT untuk menafsirkan warna dalam gambar, dia memikirkan tentang “pakaian”—foto ilusi optik yang sangat membingungkan dan beredar di Internet pada tahun 2015. Papailiopoulos, seorang profesor teknik komputer di Universitas Wisconsin–Madison, mempelajari tipe kecerdasan yang mendasari chatbot secara artifisial seperti ChatGPT OpenAI dan Google Gemini. Dia penasaran bagaimana model AI ini merespons ilusi yang menipu otak manusia.

Sistem visual manusia diadaptasi untuk melihat objek memiliki warna yang konsisten sehingga kita tetap dapat mengenali objek dalam kondisi pencahayaan berbeda. Di mata kita, sehelai daun tampak berwarna hijau pada sore hari yang cerah dan berwarna oranye saat matahari terbenam—walaupun daun tersebut memantulkan panjang gelombang cahaya yang berbeda seiring berjalannya hari. Adaptasi ini telah memberi otak kita beragam cara untuk melihat warna palsu, dan banyak di antaranya mengarah pada ilusi optik yang umum, seperti papan catur yang terlihat berpola konsisten (padahal sebenarnya tidak) ketika dibayangi oleh silinder—atau objek seperti Coca – Kaleng cola yang dipalsukan tampak dalam warna normal bila dilapis dengan garis-garis yang menyimpang.

Di dalam seri tes, Papailiopoulos mengamati bahwa GPT-4V (versi terbaru ChatGPT) tampaknya mengalami banyak trik visual yang sama yang dapat menipu orang. Respons chatbot sering kali sesuai dengan persepsi manusia—oleh bukan mengidentifikasi warna sebenarnya dari piksel dalam gambar tetapi mendeskripsikan warna yang sama dengan yang mungkin dilakukan seseorang. Itu juga benar dengan gambar dibuat oleh Papailiopoulos, seperti salah satu sashimi yang tetap terlihat berwarna pink meski menggunakan filter biru. Gambar khusus ini, sebuah contoh dari apa yang dikenal sebagai ilusi konsistensi warna, belum pernah diposting secara online dan oleh karena itu tidak dapat disertakan dalam data pelatihan AI chatbot mana pun.


Tentang mendukung jurnalisme sains

Jika Anda menyukai artikel ini, pertimbangkan untuk mendukung jurnalisme pemenang penghargaan kami dengan langganan. Dengan membeli langganan, Anda membantu memastikan masa depan cerita yang berdampak tentang penemuan dan ide yang membentuk dunia kita saat ini.


Gambar sasaran (kiri) dan gambar berfilter biru yang menunjukkan ilusi konsistensi warna (Kanan). Meskipun sasaran dalam versi yang dimanipulasi tampak merah, pada kenyataannya, piksel memiliki nilai biru dan hijau yang lebih besar. (Filter biru diterapkan menggunakan alat yang ditemukan oleh Akiyoshi Kitaoka.)

krisanapong detrapphihat/Getty Images (gambar); Kompresi histogram Akiyoshi Kitaoka (penyaring biru)

“Ini bukan penelitian ilmiah,” kata Papailiopoulos—hanya eksperimen biasa. Namun dia mengatakan bahwa jawaban chatbot yang sangat mirip manusia itu tidak memiliki penjelasan yang jelas. Awalnya, dia bertanya-tanya apakah ChatGPT membersihkan gambar mentah agar data yang diprosesnya lebih seragam. OpenAI memberitahu Amerika Ilmiah namun dalam email, ChatGPT tidak menyempurnakan suhu warna atau karakteristik lain dari gambar masukan sebelum GPT-4V menafsirkannya. Tanpa penjelasan yang jelas, Papailiopoulos mengatakan mungkin saja model penglihatan yang mengubah bahasa telah belajar menafsirkan warna dalam konteks, mengevaluasi objek dalam gambar secara relatif satu sama lain, dan menilai piksel sesuai dengan itu, seperti yang dilakukan otak manusia.

Blake Richards, seorang profesor ilmu komputer dan ilmu saraf di McGill University, setuju bahwa model tersebut dapat mempelajari warna secara kontekstual seperti yang dilakukan manusia, mengidentifikasi objek, dan merespons tampilan umum jenis objek tersebut. Dalam kasus “pakaian”, misalnya, para ilmuwan berpendapat bahwa orang yang berbeda menafsirkan warna dalam dua cara berbeda (seperti emas dan putih atau biru dan hitam) berdasarkan asumsi mereka tentang sumber cahaya yang menerangi kain tersebut.

Fakta bahwa model AI dapat menafsirkan gambar dengan cara yang sama memberikan pemahaman kita tentang bagaimana orang dapat mengembangkan keahlian serupa, kata Richards. “Hal ini memberi tahu kita bahwa kecenderungan kita untuk melakukan hal ini hampir pasti merupakan hasil dari paparan data,” jelasnya. Jika suatu algoritma yang diberi banyak data pelatihan mulai menafsirkan warna secara subyektif, itu berarti persepsi manusia dan mesin mungkin selaras—setidaknya dalam hal ini.

Namun dalam situasi lain, seperti yang ditunjukkan oleh penelitian terbaru, model-model ini sama sekali tidak berperilaku seperti kita—sebuah fakta yang mengungkap perbedaan utama antara cara manusia dan mesin “melihat” dunia. Beberapa peneliti menemukan bahwa model pengubah bahasa visual yang baru dikembangkan merespons ilusi secara tidak konsisten. Terkadang mereka bereaksi seperti manusia; dalam kasus lain, mereka memberikan jawaban yang logis dan akurat secara obyektif. Dan terkadang mereka menjawab dengan omong kosong, mungkin karena halusinasi.

Motivasi di balik penelitian tersebut bukan untuk membuktikan bahwa manusia dan AI itu sama. Salah satu perbedaan mendasar adalah otak kita penuh dengan koneksi nonlinier dan putaran umpan balik yang mengirimkan sinyal bolak-balik. Saat mata dan sistem sensorik lainnya mengumpulkan informasi dari dunia luar, jaringan berulang ini “membantu otak kita mengisi kekosongan apa pun,” kata Joel Zylberberg, ahli saraf komputasi di York University di Ontario, yang tidak terlibat dalam studi ilusi optik. . . Meskipun beberapa jaringan saraf berulang telah dikembangkan untuk meniru aspek otak manusia ini, banyak model pembelajaran mesin tidak dirancang untuk memiliki koneksi dua arah berulang. Model AI transformasi generatif yang paling populer mengandalkan fungsi matematika yang “memberi masukan”. Artinya informasi bergerak melaluinya hanya dalam satu arah: dari masukan ke keluaran.

Mempelajari bagaimana sistem AI merespons ilusi optik dapat membantu ilmuwan komputer lebih memahami kemampuan dan bias model pembelajaran mesin satu arah ini. Hal ini dapat membantu peneliti AI memahami faktor-faktor di luar pengulangan yang relevan untuk meniru respons manusia.

Salah satu faktor potensial adalah ukuran model, menurut tim ilmuwan komputer yang mengevaluasi empat model bahasa visi sumber terbuka dan mempresentasikan temuan mereka pada konferensi bulan Desember 2023. Para peneliti menemukan bahwa model yang lebih besar berarti model yang dikembangkan memiliki bobot dan variabel yang lebih besar responnya, lebih sesuai dengan respon manusia terhadap ilusi optik dibandingkan dengan ilusi yang lebih kecil. Secara keseluruhan, model AI yang diuji oleh para ilmuwan tidak terlalu baik dalam menemukan elemen ilusi dalam gambar (rata-rata kurang dari 36 persen akurat) dan rata-rata hanya cocok dengan respons manusia pada sekitar 16 persen kasus. Namun penelitian ini juga menemukan bahwa model meniru manusia lebih dekat dalam menanggapi jenis ilusi tertentu dibandingkan yang lain.

Meminta model ini untuk mengevaluasi ilusi perspektif, misalnya, akan menghasilkan keluaran yang paling mirip manusia. Dalam ilusi perspektif, objek berukuran sama dalam sebuah gambar tampak memiliki ukuran berbeda bila ditempatkan pada latar belakang yang memperlihatkan kedalaman tiga dimensi. Model diminta untuk menilai ukuran relatif siluet objek dalam gambar—dan para peneliti juga mengulangi pengujian ini dengan gambar berpasangan dan terbalik untuk mendeteksi potensi bias sisi kanan atau kiri dalam respons model. Jika jawaban bot terhadap semua pertanyaan sesuai dengan persepsi standar manusia, penulis penelitian menganggapnya “mirip manusia”. Untuk satu jenis prompt, yang mengukur kemampuan model dalam mendeteksi objek dalam gambar, kedua model yang diuji hingga 75 persen mirip manusia dalam merespons ilusi perspektif. Dalam pengujian lain dan model lain, tingkat respons mirip manusia jauh lebih rendah.

Dalam studi pracetak terpisah yang dirilis pada bulan Maret, para peneliti menguji kemampuan GPT-4V dan Gemini-Pro Google untuk menilai 12 kategori ilusi optik yang berbeda. Diantaranya ilusi objek mustahil, yaitu sosok dua dimensi dari suatu objek yang tidak mungkin ada dalam ruang tiga dimensi, dan ilusi gambar tersembunyi dimana siluet suatu objek dimasukkan ke dalam gambar tanpa langsung terlihat. Dalam sembilan dari 12 kategori, model tersebut lebih buruk dalam menentukan apa yang terjadi dalam ilusi dibandingkan manusia, dengan akurasi rata-rata sebesar 59 persen dibandingkan dengan 94 persen responden manusia. Namun dalam tiga kategori—ilusi warna, sudut, dan ukuran—GPT-4V memiliki performa setara atau sedikit lebih baik dibandingkan pengulas manusia.

Wasi Ahmad, salah satu penulis penelitian dan ilmuwan terapan di laboratorium AI Amazon Web Services, berpendapat perbedaannya terletak pada apakah menganalisis ilusi memerlukan penalaran kuantitatif atau kualitatif. Manusia pandai dalam keduanya. Model pembelajaran mesin, di sisi lain, mungkin kurang siap untuk membuat penilaian berdasarkan hal-hal yang tidak dapat diukur dengan mudah, kata Ahmad. Ketiga kategori ilusi yang paling baik ditafsirkan oleh sistem AI melibatkan atribut yang dapat diukur, bukan hanya persepsi subjektif.

Untuk menggunakan sistem AI secara bertanggung jawab, kita perlu memahami kelemahan dan titik buta sistem tersebut serta di mana bias manusia akan dan tidak akan ditiru, kata Joyce Chai, profesor ilmu komputer dan peneliti AI di Universitas Michigan dan penulis senior pracetak yang dipresentasikan pada konferensi bulan Desember 2023. “Bisa jadi baik atau buruk jika seorang model bisa sejajar dengan manusia,” katanya. Dalam beberapa kasus, model diinginkan untuk mengurangi bias manusia. Alat diagnostik medis AI yang menganalisis gambar radiologi, misalnya, tidak akan rentan terhadap kesalahan visual.

Namun, dalam penerapan lain, AI mungkin bermanfaat untuk meniru bias manusia tertentu. Kita mungkin ingin sistem AI visual yang digunakan pada mobil self-driving dapat mencocokkan kesalahan manusia, kata Richards, sehingga kesalahan kendaraan lebih mudah diprediksi dan dipahami. “Salah satu bahaya terbesar dari mobil self-driving bukanlah mereka melakukan kesalahan. Manusia selalu melakukan kesalahan dalam mengemudi,” katanya. Namun yang mengkhawatirkannya tentang kendaraan otonom adalah “kesalahan aneh” mereka, yang tidak siap ditangani oleh sistem keselamatan jalan raya.

GPT-4V OpenAI dan model pembelajaran mesin besar lainnya sering digambarkan sebagai kotak hitam—sistem buram yang memberikan keluaran tanpa penjelasan—tetapi fenomena ilusi optik yang sangat manusiawi dapat memberikan wawasan tentang apa yang ada di dalamnya.



Sumber