Dalam dunia kecerdasan buatan (AI) dan model bahasa besar (LLM), menemukan data pelatihan yang tepat merupakan persyaratan inti untuk membangun solusi generatif. Seiring dengan berkembangnya kemampuan model AI Generatif seperti Chat GPT dan DALL-E, terdapat godaan yang semakin besar untuk menggunakan keluaran yang dihasilkan AI sebagai data pelatihan untuk sistem AI baru. Namun, penelitian terbaru menunjukkan dampak berbahaya dari melakukan hal ini, yang mengarah pada fenomena yang disebut “model keruntuhan.” Dalam sebuah penelitian yang diterbitkan pada Juli 2023, para ilmuwan di Rice dan Stanford University menyimpulkan bahwa melatih model AI secara eksklusif berdasarkan keluaran AI generatif bukanlah ide yang baik. Mereka memberi judul laporannya: “Model generatif yang mengonsumsi sendiri menjadi GILA.”
Setiap kali kita melatih model AI pada data yang dihasilkan oleh model AI lain, pada dasarnya model tersebut belajar dari refleksi dirinya yang terdistorsi. Sama seperti permainan “telepon”, setiap iterasi data yang dihasilkan AI menjadi semakin rusak dan terputus dari kenyataan. Para peneliti menemukan bahwa memasukkan konten buatan AI dalam jumlah yang relatif kecil ke dalam data pelatihan dapat menjadi “beracun” bagi model, menyebabkan keluarannya dengan cepat berubah menjadi omong kosong yang tidak masuk akal hanya dalam beberapa siklus pelatihan. Hal ini karena kesalahan dan bias yang melekat pada data sintetik semakin besar seiring dengan pembelajaran model dari keluaran yang dihasilkannya sendiri.
Masalah keruntuhan model telah diamati di berbagai jenis model AI, mulai dari model bahasa hingga generator gambar. Model yang lebih besar dan lebih bertenaga mungkin sedikit lebih tahan, namun hanya ada sedikit bukti bahwa model tersebut kebal terhadap masalah ini. Seiring dengan menjamurnya konten yang dihasilkan AI di internet dan dalam kumpulan data pelatihan standar, model AI di masa depan kemungkinan besar akan dilatih menggunakan campuran data nyata dan sintetis. Hal ini membentuk lingkaran “autophagous” atau memakan waktu sendiri yang dapat terus menurunkan kualitas dan keragaman keluaran model dari generasi ke generasi.
Para peneliti di Rice University dan Stanford University melakukan analisis menyeluruh terhadap model gambar generatif yang dikonsumsi sendiri, di mana model dilatih berdasarkan keluaran sintetiknya sendiri. Mereka mengidentifikasi tiga jenis utama loop yang memakan waktu sendiri:
- Loop Sepenuhnya Sintetis: Dalam loop ini, model dilatih hanya berdasarkan data sintetis yang dihasilkan oleh model sebelumnya. Para peneliti menemukan bahwa loop yang sepenuhnya sintetik ini pasti menyebabkan Model Autophagy Disorder (MAD), dengan kualitas (presisi) atau keragaman (recall) gambar yang dihasilkan semakin menurun dari generasi ke generasi. Misalnya, pelatihan dilakukan pada dua generator gambar wajah identik dalam loop sintetik penuh – satu dengan dan satu lagi tanpa bias “sampling” yang meningkatkan kualitas sintetik dengan mengorbankan keragaman. Tanpa bias, gambar yang dihasilkan mengembangkan artefak seperti gelombang yang menurunkan realisme (kualitas). Dengan bias tersebut, gambar tetap mempertahankan kualitas tinggi namun menjadi semakin tidak beragam, dan akhirnya hanya menyatu dengan beberapa wajah yang hampir identik.
- Loop Augmentasi Sintetis: Perulangan ini menggabungkan kumpulan data pelatihan nyata yang tetap bersama dengan data sintetis. Para peneliti menemukan bahwa hal ini dapat menunda namun tidak mencegah timbulnya MAD. Data nyata pada awalnya meningkatkan kinerja, namun data sintetis akhirnya mendominasi dan menyebabkan penurunan kualitas atau keragaman.
- Loop Data Baru: Dalam perulangan ini, setiap generasi model memiliki akses ke kumpulan data pelatihan nyata baru yang sebelumnya tidak terlihat. Para peneliti menemukan bahwa hal ini dapat mencegah MAD dan menjaga kualitas dan keragaman gambar yang dihasilkan dari generasi ke generasi. Faktor kuncinya adalah tersedianya data riil segar yang cukup di setiap generasi. Tanpa data nyata baru yang cukup, model generatif yang memakan konsumsi sendiri akan mengalami MAD, dimana keluarannya akan semakin menurun kualitas dan keragamannya. Singkatnya, studi kasus ini menunjukkan bagaimana model generatif yang memakan waktu sendiri dapat menjadi korban Model Autophagy Disorder, dengan keluaran sintetiknya yang menurun seiring waktu kecuali model tersebut memiliki akses ke pasokan data pelatihan baru di dunia nyata.
Baru-baru ini, tokoh-tokoh terkemuka di industri AI membuat komitmen di Gedung Putih untuk memperkenalkan strategi seperti watermarking untuk membedakan data sintetis dari data asli. Pendekatan watermarking yang diusulkan akan menyematkan penanda teknis dalam konten sintetis, seperti gambar atau audio palsu. Tanda air ini dimaksudkan untuk memudahkan pengguna mengidentifikasi kapan konten dibuat secara artifisial, dibandingkan menangkap kejadian di dunia nyata. Upaya-upaya ini pada akhirnya diarahkan untuk mengatasi dampak buruk data sintetis di internet. Sehubungan dengan Model Autophagy Disorder (MAD), watermarking dapat berfungsi sebagai tindakan pencegahan untuk menghentikan pelatihan model generatif pada data yang dihasilkan AI. Meskipun demikian, efektivitas pendekatan tersebut dalam mengatasi kegilaan masih belum dapat ditentukan dan memerlukan penyelidikan lebih lanjut.
Para peneliti juga menekankan pentingnya menjaga keseimbangan representasi konten nyata dan sintetis dalam data pelatihan, dengan menjaga kelompok minoritas tetap terpelihara dengan baik. Perusahaan harus hati-hati menyusun datanya dan memantau tanda-tanda degradasi. Data pelatihan harus beragam, dan mewakili berbagai perspektif serta upaya khusus harus dilakukan untuk menggabungkan sumber data yang biasanya kurang terwakili dalam lanskap digital. Jika tidak, kita berisiko menghadapi masa depan di mana sistem AI semakin terpisah dari kenyataan, dengan keluaran yang bias, tidak dapat diandalkan, dan tidak masuk akal. Hal ini dapat menimbulkan konsekuensi serius di banyak bidang, mulai dari pembuatan konten hingga sistem pengambilan keputusan. Memang benar bahwa sebagai manusia, kita mengkonsumsi banyak hal yang dihasilkan oleh AI dalam hidup kita, namun sebagai manusia kita memiliki mekanisme penanggulangan yang mungkin tidak dimiliki oleh sistem AI.
Pembelajaran dari penelitian ini mencerminkan kisah-kisah peringatan di masa lalu, seperti penyebaran dampak radioaktif yang mencemari baja yang baru diproduksi. Sama seperti kita harus mewaspadai kemurnian materi kita, kita juga harus berhati-hati terhadap kemurnian data pelatihan AI kita. Melalui kurasi dan pemantauan data yang bertanggung jawab, kami berharap dapat mengarahkan pengembangan AI ke arah yang tetap membumi dan melayani beragam kebutuhan seluruh komunitas. Alternatifnya adalah masa depan dystopian dimana alat AI kita menjadi semakin “gila”, tidak lagi sesuai dengan tujuannya.
tentang Penulis
Ranjeeta Bhattacharya adalah ilmuwan data senior di sayap AI Hub BNY Mellon, bank kustodian terbesar di dunia. Total pengalaman saya sebagai konsultan Sains / Teknologi Data mencakup lebih dari 15+ tahun di mana saya telah melakukan peran tekno-fungsional multi-segi dalam kapasitas pengembang perangkat lunak, perancang solusi, analis teknis, manajer pengiriman, manajer proyek, dll. untuk TI Konsultasi dengan perusahaan-perusahaan Fortune 500 di seluruh dunia. Saya memiliki gelar sarjana di bidang ilmu dan teknik Komputer, gelar master di bidang ilmu data, dan berbagai sertifikasi serta publikasi di domain ini. menunjukkan komitmen saya untuk terus belajar dan berbagi pengetahuan.
Mendaftarlah untuk mendapatkan buletin insideBIGDATA gratis.
Bergabunglah dengan kami di Twitter: https://twitter.com/InsideBigData1
Bergabunglah dengan kami di LinkedIn: https://www.linkedin.com/company/insidebigdata/
Bergabunglah dengan kami di Facebook: https://www.facebook.com/insideBIGDATANOW