Meskipun permintaan akan keamanan dan akuntabilitas AI meningkat, pengujian dan tolok ukur saat ini mungkin masih belum memadai, menurut laporan baru.
Model AI generatif — model yang dapat menganalisis dan mengeluarkan teks, gambar, musik, video, dan sebagainya — semakin diawasi ketat karena kecenderungannya untuk membuat kesalahan dan umumnya berperilaku tidak terduga. Kini, berbagai organisasi mulai dari lembaga sektor publik hingga perusahaan teknologi besar mengusulkan tolok ukur baru untuk menguji keamanan model ini.
Menjelang akhir tahun lalu, perusahaan rintisan Scale AI membentuk laboratorium yang didedikasikan untuk mengevaluasi seberapa baik model selaras dengan pedoman keselamatan. Bulan ini, NIST dan UK AI Safety Institute merilis alat yang dirancang untuk menilai risiko model.
Namun pengujian dan metode penyelidikan model ini mungkin tidak memadai.
Ada Lovelace Institute (ALI), sebuah organisasi penelitian AI nirlaba yang berbasis di Inggris, melakukan studi yang mewawancarai para ahli dari laboratorium akademis, masyarakat sipil, dan vendor yang memproduksi model, serta mengaudit penelitian terkini tentang evaluasi keamanan AI. Para penulis bersama menemukan bahwa meskipun evaluasi saat ini dapat bermanfaat, evaluasi tersebut tidak menyeluruh, dapat dengan mudah dimanipulasi, dan tidak selalu memberikan indikasi tentang bagaimana model akan berperilaku dalam skenario dunia nyata.
“Baik itu telepon pintar, obat resep, atau mobil, kami berharap produk yang kami gunakan aman dan andal; di sektor ini, produk diuji secara ketat untuk memastikan keamanannya sebelum digunakan,” kata Elliot Jones, peneliti senior di ALI dan salah satu penulis laporan tersebut, kepada TechCrunch. “Penelitian kami bertujuan untuk memeriksa keterbatasan pendekatan saat ini terhadap evaluasi keamanan AI, menilai bagaimana evaluasi saat ini digunakan, dan mengeksplorasi penggunaannya sebagai alat bagi pembuat kebijakan dan regulator.”
Tolok ukur dan tim merah
Para penulis pendamping studi ini pertama-tama mensurvei literatur akademis untuk mendapatkan gambaran umum tentang bahaya dan risiko yang ditimbulkan model saat ini, serta status evaluasi model AI yang ada. Mereka kemudian mewawancarai 16 pakar, termasuk empat karyawan di perusahaan teknologi yang tidak disebutkan namanya yang mengembangkan sistem AI generatif.
Studi tersebut menemukan perbedaan pendapat tajam dalam industri AI mengenai serangkaian metode dan taksonomi terbaik untuk mengevaluasi model.
Beberapa evaluasi hanya menguji bagaimana model selaras dengan tolok ukur di laboratorium, bukan bagaimana model dapat memengaruhi pengguna di dunia nyata. Yang lain menggunakan pengujian yang dikembangkan untuk tujuan penelitian, bukan mengevaluasi model produksi — namun vendor bersikeras menggunakannya dalam produksi.
Kami telah menulis tentang masalah dengan tolok ukur AI sebelumnya, dan studi tersebut menyoroti semua masalah ini dan banyak lagi.
Para ahli yang dikutip dalam studi tersebut mencatat bahwa sulit untuk memperkirakan kinerja model dari hasil tolok ukur dan tidak jelas apakah tolok ukur dapat menunjukkan bahwa model memiliki kemampuan tertentu. Misalnya, meskipun model dapat berprestasi baik dalam ujian pengacara negara bagian, itu tidak berarti model tersebut akan mampu menyelesaikan tantangan hukum yang lebih terbuka.
Para ahli juga menyoroti masalah kontaminasi data, di mana hasil tolok ukur dapat melebih-lebihkan kinerja model jika model telah dilatih pada data yang sama dengan yang digunakan untuk mengujinya. Tolok ukur, dalam banyak kasus, dipilih oleh organisasi bukan karena merupakan alat terbaik untuk evaluasi, tetapi demi kenyamanan dan kemudahan penggunaan, kata para ahli.
“Tolok ukur berisiko dimanipulasi oleh pengembang yang mungkin melatih model pada set data yang sama yang akan digunakan untuk menilai model, yang setara dengan melihat kertas ujian sebelum ujian, atau dengan secara strategis memilih evaluasi mana yang akan digunakan,” kata Mahi Hardalupas, peneliti di ALI dan salah satu penulis studi, kepada TechCrunch. “Versi model mana yang dievaluasi juga penting. Perubahan kecil dapat menyebabkan perubahan perilaku yang tidak terduga dan dapat mengabaikan fitur keselamatan bawaan.”
Studi ALI juga menemukan masalah dengan “red-teaming,” praktik menugaskan individu atau kelompok untuk “menyerang” model guna mengidentifikasi kerentanan dan kekurangan. Sejumlah perusahaan menggunakan red-teaming untuk mengevaluasi model, termasuk perusahaan rintisan AI OpenAI dan Anthropic, tetapi hanya ada sedikit standar yang disepakati untuk red teaming, sehingga sulit untuk menilai efektivitas upaya tertentu.
Para pakar mengatakan kepada rekan penulis studi bahwa mungkin sulit untuk menemukan orang dengan keterampilan dan keahlian yang dibutuhkan untuk membentuk tim merah, dan bahwa sifat manual dari pembentukan tim merah menjadikannya mahal dan melelahkan — sehingga menimbulkan hambatan bagi organisasi kecil yang tidak memiliki sumber daya yang dibutuhkan.
Solusi yang memungkinkan
Tekanan untuk merilis model lebih cepat dan keengganan untuk melakukan pengujian yang dapat menimbulkan masalah sebelum rilis adalah alasan utama mengapa evaluasi AI belum menjadi lebih baik.
“Seseorang yang kami ajak bicara yang bekerja untuk sebuah perusahaan yang mengembangkan model dasar merasa ada lebih banyak tekanan dalam perusahaan untuk merilis model dengan cepat, sehingga semakin sulit untuk menolak dan menganggap serius pelaksanaan evaluasi,” kata Jones. “Laboratorium AI besar merilis model dengan kecepatan yang melampaui kemampuan mereka atau masyarakat untuk memastikan model tersebut aman dan andal.”
Salah satu narasumber dalam studi ALI menyebut evaluasi model untuk keselamatan sebagai masalah yang “sulit diatasi”. Jadi, harapan apa yang dimiliki industri — dan mereka yang mengaturnya — untuk solusi?
Mahi Hardalupas, peneliti di ALI, percaya bahwa ada jalan ke depan, tetapi hal itu memerlukan keterlibatan lebih besar dari badan-badan sektor publik.
“Para regulator dan pembuat kebijakan harus mengartikulasikan dengan jelas apa yang mereka inginkan dari evaluasi,” katanya. “Pada saat yang sama, komunitas evaluasi harus transparan tentang keterbatasan dan potensi evaluasi saat ini.”
Hardalupas menyarankan agar pemerintah mewajibkan lebih banyak partisipasi publik dalam pengembangan evaluasi dan menerapkan langkah-langkah untuk mendukung “ekosistem” pengujian pihak ketiga, termasuk program untuk memastikan akses rutin ke model dan kumpulan data yang diperlukan.
Jones berpendapat bahwa mungkin perlu untuk mengembangkan evaluasi “spesifik konteks” yang lebih dari sekadar menguji bagaimana sebuah model merespons perintah, dan sebaliknya melihat pada tipe pengguna yang mungkin terdampak oleh model (misalnya orang-orang dengan latar belakang, jenis kelamin, atau etnis tertentu) dan cara-cara di mana serangan terhadap model dapat mengalahkan perlindungan.
“Hal ini memerlukan investasi dalam ilmu evaluasi yang mendasarinya untuk mengembangkan evaluasi yang lebih kuat dan dapat diulang yang didasarkan pada pemahaman tentang cara kerja model AI,” tambahnya.
Tetapi mungkin tidak akan pernah ada jaminan bahwa suatu model aman.
“Seperti yang telah dicatat oleh orang lain, 'keamanan' bukanlah sifat model,” kata Hardalupas. “Menentukan apakah suatu model 'aman' memerlukan pemahaman konteks penggunaannya, kepada siapa model tersebut dijual atau dapat diakses, dan apakah perlindungan yang ada memadai dan kuat untuk mengurangi risiko tersebut. Evaluasi model dasar dapat digunakan sebagai tujuan eksplorasi untuk mengidentifikasi potensi risiko, tetapi tidak dapat menjamin bahwa model tersebut aman, apalagi 'benar-benar aman.' Banyak responden kami setuju bahwa evaluasi tidak dapat membuktikan bahwa suatu model aman dan hanya dapat mengindikasikan bahwa model tersebut tidak aman.”