Microsoft telah mengembangkan yang baru kecerdasan buatan (AI) pembuat pidato yang terkesan begitu meyakinkan hingga tidak bisa dirilis ke publik.
VALL-E 2 adalah generator text-to-speech (TTS) yang dapat mereproduksi suara pembicara manusia hanya dengan beberapa detik audio.
Peneliti Microsoft mengatakan VALL-E 2 mampu menghasilkan “ucapan yang akurat dan alami dengan suara yang sama persis dengan suara pembicara aslinya, sebanding dengan kinerja manusia,” dalam sebuah makalah yang muncul pada 17 Juni di server pracetak arXiv. Dengan kata lain, generator suara AI yang baru cukup meyakinkan untuk disalahartikan sebagai orang sungguhan — setidaknya, menurut penciptanya.
“VALL-E 2 adalah kemajuan terbaru dalam model bahasa pengkodean saraf yang menandai tonggak sejarah dalam sintesis zero-hit text-to-speech (TTS), yang mencapai kesetaraan manusia untuk pertama kalinya,” tulis para peneliti dalam makalah tersebut. “Selain itu, VALL-E 2 secara konsisten menyintesis ucapan berkualitas tinggi, bahkan untuk kalimat-kalimat yang biasanya menantang karena kerumitannya atau frasa yang berulang.”
Terkait: Algoritme AI baru menandai deepfake dengan akurasi 98% — lebih baik dibandingkan alat lain yang ada saat ini
Paritas manusia dalam konteks ini berarti ucapan yang dihasilkan oleh VALL-E 2 cocok atau melebihi kualitas ucapan manusia dalam tolok ukur yang digunakan oleh Microsoft.
Mesin AI mampu melakukan ini dengan dimasukkannya dua fitur utama: “Pengambilan Sampel Sadar Pengulangan” dan “Pemodelan Kode Batch”.
Pengambilan Sampel Sadar Pengulangan meningkatkan cara AI mengubah teks menjadi ucapan dengan menangani “token” yang berulang — unit kecil bahasa, seperti kata atau bagian kata — mencegah pengulangan suara atau frasa tanpa batas selama proses decoding. Dengan kata lain, fitur ini membantu mengubah pola bicara VALL-E 2 menjadi lebih lancar dan alami.
Sementara itu, Pemodelan Kode Batch meningkatkan efisiensi dengan mengurangi panjang urutan — atau jumlah token individual yang diproses model dalam satu urutan masukan. Hal ini mempercepat kecepatan VALL-E 2 menghasilkan ucapan dan membantu mengatasi kesulitan yang timbul saat memproses rangkaian suara yang panjang.
Para peneliti menggunakan sampel audio dari perpustakaan ucapan LibriSpeech dan VCTK untuk mengevaluasi seberapa cocok VALL-E 2 dengan rekaman pembicara manusia. Mereka juga menggunakan ELLA-V – kerangka evaluasi yang dirancang untuk mengukur keakuratan dan kualitas ucapan yang dihasilkan – untuk menentukan seberapa efektif VALL-E 2 menangani tugas-tugas pembuatan ucapan yang lebih kompleks.
“Percobaan kami, yang dilakukan pada kumpulan data LibriSpeech dan VCTK, menunjukkan bahwa VALL-E 2 mengungguli sistem TTS zero-hit sebelumnya dalam hal konsistensi ucapan, kealamian, dan kesamaan pembicara,” tulis para peneliti. “Ini adalah yang pertama mencapai kesetaraan manusia pada tolok ukur ini.”
Para peneliti menunjukkan dalam makalahnya bahwa kualitas keluaran VALL-E 2 bergantung pada panjang dan kualitas perintah bicara – serta faktor lingkungan seperti kebisingan latar belakang.
“Hanya proyek penelitian”
Terlepas dari kemampuannya, Microsoft tidak akan merilis VALL-E 2 ke publik karena potensi risiko penyalahgunaan. Hal ini bertepatan dengan meningkatnya kekhawatiran terhadap kloning suara dan teknologi deepfake. Perusahaan AI lain menyukainya OpenAI telah menerapkan batasan serupa pada teknologi suara mereka.
“VALL-E 2 murni proyek penelitian. Saat ini, kami belum memiliki rencana untuk memasukkan VALL-E 2 ke dalam produk atau memperluas akses ke publik,” tulis para peneliti di postingan blog. “Ini mungkin membawa potensi risiko penyalahgunaan model, seperti memalsukan pengenalan suara atau meniru identitas pembicara tertentu.”
Meskipun demikian, mereka berpendapat bahwa teknologi ucapan AI dapat diterapkan secara praktis di masa depan. “VALL-E 2 dapat mensintesis ucapan yang menjaga identitas pembicara dan dapat digunakan untuk pembelajaran pendidikan, hiburan, jurnalisme, konten yang ditulis sendiri, fitur aksesibilitas, sistem respons suara interaktif, terjemahan, chatbot, dan sebagainya,” tambah para peneliti.
Mereka melanjutkan: “Jika model ini ingin digeneralisasikan ke pembicara yang tidak terlihat di dunia nyata, maka model tersebut harus menyertakan protokol untuk memastikan pembicara menyetujui penggunaan suara mereka dan model deteksi ucapan yang disintesis.”