Salah satu nilai jual model AI generatif andalan Google, Gemini 1.5 Pro dan 1.5 Flash, adalah jumlah data yang dapat diproses dan dianalisis. Dalam konferensi pers dan demonstrasi, Google telah berulang kali mengklaim bahwa model dapat mencapai tugas yang sebelumnya mustahil berkat “konteks panjang” mereka, seperti meringkas beberapa ratus halaman dokumen atau menelusuri adegan dalam cuplikan film.

Namun penelitian baru menunjukkan bahwa model tersebut sebenarnya tidak terlalu bagus dalam hal itu.

dua terpisah belajar menyelidiki seberapa baik model Gemini Google dan model lainnya masuk akal dari sejumlah besar data — pikirkan “Perang dan Damai” yang sedang bekerja. Keduanya menemukan Gemini 1.5 Pro dan 1.5 Flash kesulitan menjawab pertanyaan tentang kumpulan data besar dengan benar; dalam serangkaian tes berbasis dokumen, model hanya memberikan jawaban yang benar 40%-50%.

“Meskipun model seperti Gemini 1.5 Pro secara teknis dapat memproses konteks yang panjang, kami telah melihat banyak kasus yang menunjukkan bahwa model tersebut tidak benar-benar ‘memahami’ kontennya,” Marzena Karpinska, seorang postdoc di UMass Amherst dan salah satu penulis salah satunya studi tersebut, kepada TechCrunch.

Jendela konteks Gemini tidak ada

Konteks model, atau jendela konteks, mengacu pada data masukan (misalnya teks) yang dipertimbangkan model sebelum menghasilkan keluaran (misalnya teks tambahan). Pertanyaan sederhana — “Siapa yang memenangkan pemilihan presiden AS tahun 2020?” — dapat berfungsi sebagai konteks, seperti halnya skrip film, acara TV, atau klip audio. Dan seiring bertambahnya jendela konteks, ukuran dokumen yang sesuai di dalamnya juga ikut bertambah.

Versi terbaru Gemini dapat menggunakan lebih dari 2 juta token sebagai konteksnya. (“Token” adalah potongan data mentah yang terbagi, seperti suku kata “fan”, “tas”, dan “tic” dalam kata “hebat.”) Itu setara dengan sekitar 1,4 juta kata, dua jam video, atau 22 jam audio — konteks terbesar dari semua model yang tersedia secara komersial.

Dalam pengarahan awal tahun ini, Google menunjukkan beberapa rekaman demo yang dimaksudkan untuk menggambarkan potensi kemampuan konteks panjang Gemini. Seseorang meminta Gemini 1.5 Pro untuk mencari transkrip siaran siaran bulan Apollo 11 — sekitar 402 halaman — untuk bagian-bagian yang mengandung humor, dan kemudian mencari adegan dalam siaran yang terlihat mirip dengan sketsa pensil.

Wakil Presiden Penelitian di Google DeepMind Oriol Vinyals, yang memimpin pengarahan, menggambarkan model ini sebagai sesuatu yang “ajaib”.

“[1.5 Pro] melakukan tugas penalaran ini di setiap halaman, setiap kata,” katanya.

Itu mungkin berlebihan.

Dalam salah satu penelitian yang mengukur kemampuan ini, Karpinska, bersama dengan peneliti dari Allen Institute for AI dan Princeton, meminta model untuk menilai pernyataan benar/salah tentang buku fiksi yang ditulis dalam bahasa Inggris. Para peneliti memilih karya terbaru sehingga model tidak bisa “menipu” dengan mengandalkan pengetahuan sebelumnya, dan mereka menyelingi pernyataan dengan mengacu pada detail spesifik dan titik plot yang tidak mungkin dipahami tanpa membaca keseluruhan buku.

Mengingat pernyataan seperti “Menggunakan keahliannya sebagai Apoth, Nusis mampu merekayasa balik jenis portal yang dibuka oleh kunci reagen yang ditemukan di peti kayu Rona,” Gemini 1.5 Pro dan 1.5 Flash — setelah menelan buku yang relevan — harus menyatakan apakah pernyataan tersebut benar atau salah dan jelaskan alasannya.

Kredit Gambar: UMass Amherst

Diuji pada buku berisi 260.000 kata (~520 halaman), para peneliti menemukan bahwa 1,5 Pro menjawab pernyataan benar/salah dengan benar sebanyak 46,7%, sedangkan Flash hanya menjawab dengan benar sebanyak 20%. Artinya, koin tersebut jauh lebih baik dalam menjawab pertanyaan tentang buku dibandingkan model pembelajaran mesin terbaru Google. Dengan merata-ratakan semua hasil benchmark, tidak ada model yang berhasil mencapai peluang yang lebih tinggi daripada peluang acak dalam hal menjawab pertanyaan secara akurat.

“Kami menemukan bahwa model tersebut memiliki lebih banyak kesulitan dalam memvalidasi klaim yang memerlukan mempertimbangkan sebagian besar buku, atau bahkan keseluruhan buku, dibandingkan klaim yang dapat diselesaikan dengan mengambil bukti setingkat kalimat,” kata Karpinska. “Secara kualitatif, kami juga menemukan bahwa model tersebut kesulitan dalam memvalidasi klaim tentang informasi implisit yang jelas bagi pembaca manusia tetapi tidak dinyatakan secara eksplisit dalam teks.”

Penelitian kedua, yang ditulis bersama oleh para peneliti di UC Santa Barbara, menguji kemampuan Gemini 1.5 Flash (tetapi bukan 1.5 Pro) untuk “menalar” video — yaitu, menemukan dan menjawab pertanyaan tentang konten di dalamnya.

Rekan penulis membuat kumpulan data gambar (misalnya, foto kue ulang tahun) yang dipasangkan dengan pertanyaan untuk dijawab oleh model tentang objek yang digambarkan dalam gambar (misalnya, “Karakter kartun apa yang ada di kue ini?”). Untuk mengevaluasi model, mereka memilih salah satu gambar secara acak dan menyisipkan gambar “pengganggu” sebelum dan sesudahnya untuk membuat rekaman seperti tayangan slide.

Flash tidak bekerja dengan baik. Dalam pengujian yang meminta model mentranskripsikan enam digit tulisan tangan dari “slideshow” yang terdiri dari 25 gambar, Flash mendapatkan sekitar 50% transkripsi yang benar. Akurasi turun menjadi sekitar 30% dengan delapan digit.

“Ketika menjawab pertanyaan nyata melalui gambar, tampaknya sulit untuk semua model yang kami uji,” Michael Saxon, mahasiswa PhD di UC Santa Barbara dan salah satu rekan penulis studi tersebut, mengatakan kepada TechCrunch. “Penalaran kecil itu – menyadari bahwa angka-angka tersebut ada dalam bingkai dan membacanya – mungkin merupakan hal yang merusak model tersebut.”

Google terlalu berjanji dengan Gemini

Tidak ada penelitian yang ditinjau oleh rekan sejawat, juga tidak menyelidiki rilis Gemini 1.5 Pro dan 1.5 Flash dalam konteks 2 juta token. (Keduanya menguji 1 juta keluaran konteks token.) Dan Flash tidak dimaksudkan untuk memiliki kemampuan seperti Pro dalam hal kinerja; Google mengiklankannya sebagai alternatif berbiaya rendah.

Namun, keduanya menambah semangat yang telah dijanjikan Google – dan kurang terlaksana – dengan Gemini sejak awal. Tak satu pun model yang diuji oleh para peneliti, termasuk GPT-4o OpenAI dan Claude 3.5 Sonnet dari Anthropic, berkinerja baik. Namun Google adalah satu-satunya penyedia model yang memberikan penagihan tertinggi pada jendela konteks dalam iklannya.

“Tidak ada yang salah dengan klaim sederhana, ‘Model kami dapat mengambil sejumlah X token’ berdasarkan rincian teknis yang obyektif,” kata Saxon. “Tetapi pertanyaannya adalah, hal berguna apa yang dapat Anda lakukan dengannya?”

AI generatif secara umum semakin mendapat sorotan karena bisnis (dan investor) semakin frustrasi dengan keterbatasan teknologi.

Dalam survei terbaru yang dilakukan oleh Boston Consulting Group, sekitar setengah responden – semuanya eksekutif C-suite – mengatakan bahwa mereka tidak mengharapkan AI generatif akan memberikan peningkatan produktivitas yang besar dan mereka khawatir akan potensi kesalahan dan gangguan data yang timbul. dari alat bertenaga. PitchBook baru-baru ini dilaporkan bahwa, selama dua kuartal berturut-turut, kesepakatan AI generatif tahap awal telah menurun, turun 76% dari puncaknya pada Q3 tahun 2023.

Dihadapkan dengan chatbot pertemuan sederhana yang memberikan detail fiktif tentang orang-orang dan platform pencarian AI yang pada dasarnya merupakan penghasil plagiarisme, klien mencari pembeda yang menjanjikan. Google – yang telah berlomba, terkadang dengan kikuk, untuk mengejar pesaing AI generatifnya – sangat ingin menjadikan konteks Gemini sebagai salah satu pembedanya.

Tapi tampaknya taruhan itu masih terlalu dini.

“Kami belum menemukan cara untuk benar-benar menunjukkan bahwa ‘penalaran’ atau ‘pemahaman’ dari sebuah dokumen panjang memang terjadi, dan pada dasarnya setiap kelompok yang menggunakan model ini sedang melakukan evaluasi ad hoc mereka sendiri untuk membuat klaim ini,” kata Karpinska. “Tanpa mengetahui berapa lama pemrosesan konteks berlangsung – dan perusahaan tidak membagikan rinciannya – sulit untuk mengatakan seberapa realistis klaim ini.”

Google tidak menanggapi permintaan komentar.

Baik Saxon maupun Karpinska percaya bahwa penawar terhadap hype seputar AI generatif adalah pembandingan yang lebih baik dan, dengan cara yang sama, penekanan yang lebih besar pada kritik pihak ketiga. Saxon mencatat bahwa salah satu pengujian yang lebih umum untuk konteks panjang (dikutip secara bebas oleh Google dalam materi pemasarannya), “jarum di tumpukan jerami”, hanya mengukur kemampuan model untuk mengambil informasi spesifik, seperti nama dan nomor, dari suatu data. set — tidak menjawab pertanyaan rumit tentang informasi.

“Semua ilmuwan dan sebagian besar insinyur yang menggunakan model ini pada dasarnya setuju bahwa budaya benchmarking yang ada saat ini sudah rusak,” kata Saxon, “jadi penting bagi orang-orang untuk memahami untuk mengambil laporan besar dengan angka-angka seperti ‘kecerdasan umum di seluruh benchmark’ dengan sebutir garam.”

Sumber