Pengikisan video hanyalah salah satu dari banyak trik baru yang dapat dilakukan ketika model bahasa besar (LLM) terbaru, seperti Gemini dan Google GPT-4o, sebenarnya adalah model “multimodal”, yang memungkinkan input audio, video, gambar, dan teks. Model ini menerjemahkan input multimedia apa pun menjadi token (potongan data), yang digunakan untuk membuat prediksi tentang token berikutnya dalam urutan tersebut.

Istilah seperti “model prediksi token” (TPM) mungkin lebih akurat daripada “LLM” Hari ini untuk model AI dengan input dan output multimodal, namun istilah alternatif umum belum benar-benar digunakan. Namun apa pun sebutannya, memiliki model AI yang dapat menerima masukan video memiliki implikasi menarik, baik dan berpotensi buruk.

Meruntuhkan hambatan masukan

Willison bukanlah orang pertama yang memasukkan video ke dalam model AI untuk mencapai hasil yang menarik (lebih lanjut tentang itu di bawah, dan berikut ini kertas kerja tahun 2015 yang menggunakan istilah “video scraping”)), namun begitu Gemini meluncurkan kemampuan input videonya, dia mulai mencobanya dengan sungguh-sungguh.

Pada bulan Februari, Willison ditampilkan penerapan awal lainnya dari pengikisan video AI di blognya, di mana dia mengambil video berdurasi tujuh detik dari sebuah buku di rak bukunya, lalu meminta Gemini 1.5 Pro untuk mengekstrak semua judul buku yang dia lihat di video dan menaruhnya dalam struktur, atau dipesan, daftar.

Mengubah data tidak terstruktur menjadi data terstruktur penting bagi Willison, karena dia adalah salah satunya pelapor data. Willison telah menciptakan alat untuk jurnalis data di masa lalu, seperti Proyek kumpulan datayang memungkinkan siapa saja mempublikasikan data sebagai situs web interaktif.

Untuk setiap jurnalis data yang merasa frustrasi, beberapa sumber data terbukti tahan terhadap scraping (menangkap data untuk dianalisis) karena cara data diformat, disimpan, atau disajikan. Dalam hal ini, Willison sangat antusias dengan potensi pengambilan video AI karena dapat melewati hambatan tradisional dalam ekstraksi data.

Sumber