Kebanyakan tolok ukur AI tidak memberikan banyak informasi kepada kita. Mereka mengajukan pertanyaan yang dapat diselesaikan dengan menghafal, atau membahas topik yang tidak relevan bagi sebagian besar pengguna.
Jadi, beberapa penggemar AI beralih ke game sebagai cara untuk menguji kemampuan AI dalam memecahkan masalah.
Paul Calcraft, seorang pengembang AI lepas, telah membuat aplikasi di mana dua model AI dapat memainkan game mirip Pictionary satu sama lain. Satu model mencoret-coret, sedangkan model lainnya mencoba menebak apa yang diwakili oleh coretan tersebut.
“Saya pikir ini terdengar sangat menyenangkan dan berpotensi menarik dari sudut pandang kemampuan model,” kata Calcraft kepada TechCrunch dalam sebuah wawancara. “Jadi saya duduk di dalam rumah pada hari Sabtu yang berawan dan menyelesaikannya.”
Calcraft terinspirasi oleh proyek serupa oleh programmer Inggris Simon Willison yang menugaskan model untuk merender gambar vektor seekor pelikan yang mengendarai sepeda. Willison, seperti Calcraft, memilih tantangan yang menurutnya akan memaksa model untuk “berpikir” di luar isi data pelatihan mereka.
“Idenya adalah untuk memiliki tolok ukur yang tidak dapat ditandingi,” kata Calcraft. “Sebuah tolok ukur yang tidak dapat dikalahkan dengan menghafal jawaban spesifik atau pola sederhana yang telah dilihat sebelumnya selama pelatihan.”
Minecraft juga termasuk dalam kategori “tidak dapat dimainkan” ini, atau begitulah menurut Adonis Singh yang berusia 16 tahun. Dia menciptakan alat, Mcbench, yang memberikan model kontrol atas karakter Minecraft dan menguji kemampuannya untuk merancang struktur, seperti halnya Project Malmo dari Microsoft.
“Saya yakin Minecraft menguji kecerdikan model dan memberi mereka lebih banyak pilihan,” katanya kepada TechCrunch. “Ini tidak sebatas dan jenuh seperti sebelumnya [other] tolok ukur.”
Menggunakan game untuk mengukur AI bukanlah hal baru. Idenya sudah ada sejak beberapa dekade yang lalu: Ahli matematika Claude Shannon berpendapat pada tahun 1949 bahwa permainan seperti catur merupakan tantangan yang layak untuk perangkat lunak “cerdas”. Baru-baru ini, DeepMind dari Alphabet mengembangkan model yang dapat memainkan Pong dan Breakout; OpenAI melatih AI untuk berkompetisi dalam pertandingan Dota 2; dan Meta merancang algoritma yang dapat bertahan melawan pemain Texas hold 'em profesional.
Namun yang berbeda sekarang adalah para penggemar menghubungkan model bahasa besar (LLM) — model dengan kemampuan menganalisis teks, gambar, dan lainnya — ke dalam game untuk menyelidiki seberapa baik logika mereka.
Ada banyak sekali LLM di luar sana, mulai dari Gemini dan Claude hingga GPT-4o, dan semuanya memiliki “getaran” yang berbeda. Mereka “merasa” berbeda dalam satu interaksi dengan interaksi berikutnya – sebuah fenomena yang sulit diukur.
“LLM diketahui sensitif terhadap cara pertanyaan tertentu diajukan, dan secara umum tidak dapat diandalkan dan sulit diprediksi,” kata Calcraft.
Berbeda dengan tolok ukur berbasis teks, game memberikan cara visual dan intuitif untuk membandingkan kinerja dan perilaku model, kata Matthew Guzdial, peneliti AI dan profesor di Universitas Alberta.
“Kita dapat menganggap setiap tolok ukur memberikan kita penyederhanaan berbeda terhadap realitas yang berfokus pada jenis masalah tertentu, seperti penalaran atau komunikasi,” katanya. “Game hanyalah cara lain untuk mengambil keputusan dengan AI, jadi orang-orang menggunakannya seperti pendekatan lainnya.”
Mereka yang akrab dengan sejarah AI generatif akan menyadari betapa miripnya Pictionary dengan jaringan permusuhan generatif (GAN), di mana model pembuat mengirimkan gambar ke model diskriminator yang kemudian mengevaluasinya.
Calcraft percaya bahwa Pictionary dapat menangkap kemampuan LLM untuk memahami konsep seperti bentuk, warna dan preposisi (misalnya, arti “dalam” versus “pada”). Dia tidak akan mengatakan lebih jauh bahwa permainan ini merupakan ujian penalaran yang dapat diandalkan, namun dia berargumentasi bahwa kemenangan membutuhkan strategi dan kemampuan untuk memahami petunjuk – tidak ada model yang mudah.
“Saya juga sangat menyukai sifat permainan Pictionary yang hampir bermusuhan, mirip dengan GAN, di mana Anda memiliki dua peran berbeda: yang satu menggambar dan yang lainnya menebak,” katanya. “Yang terbaik untuk digambar bukanlah yang paling artistik, tetapi yang paling jelas menyampaikan idenya kepada audiens LLM lain (termasuk model yang lebih cepat dan kurang mampu!).”
“Pictionary adalah masalah mainan yang tidak praktis atau realistis,” Calcraft memperingatkan. “Meskipun demikian, menurut saya pemahaman spasial dan multimodalitas merupakan elemen penting untuk kemajuan AI, sehingga LLM Pictionary dapat menjadi langkah kecil dan awal dalam perjalanan tersebut.”
Singh percaya bahwa Minecraft juga merupakan tolok ukur yang berguna, dan dapat mengukur penalaran dalam LLM. “Dari model yang saya uji sejauh ini, hasilnya benar-benar selaras dengan seberapa besar saya memercayai model tersebut untuk sesuatu yang berhubungan dengan penalaran,” katanya.
Yang lain tidak begitu yakin.
Mike Cook, seorang peneliti di Queen Mary University yang berspesialisasi dalam AI, tidak menganggap Minecraft istimewa sebagai tempat uji coba AI.
“Saya rasa ketertarikan terhadap Minecraft datang dari orang-orang di luar dunia game yang mungkin berpikir bahwa, karena terlihat seperti 'dunia nyata', Minecraft memiliki hubungan yang lebih dekat dengan penalaran atau tindakan di dunia nyata,” kata Cook kepada TechCrunch. “Dari sudut pandang pemecahan masalah, ini tidak jauh berbeda dengan video game seperti Fortnite, Stardew Valley, atau World of Warcraft. Hanya saja ada balutan berbeda di bagian atasnya yang membuatnya tampak lebih seperti serangkaian tugas sehari-hari seperti membangun sesuatu atau menjelajah.”
Menurut Cook, bahkan sistem AI terbaik untuk bermain game umumnya tidak beradaptasi dengan baik terhadap lingkungan baru, dan tidak dapat dengan mudah memecahkan masalah yang belum pernah mereka lihat sebelumnya. Misalnya, kecil kemungkinan model yang mahir di Minecraft akan memainkan Doom dengan keahlian nyata apa pun.
“Saya pikir kualitas baik yang dimiliki Minecraft dari perspektif AI adalah sinyal penghargaan yang sangat lemah dan dunia prosedural, yang berarti tantangan yang tidak dapat diprediksi,” lanjut Cook. “Tapi ini tidak lebih mewakili dunia nyata dibandingkan video game lainnya.”
Oleh karena itu, pasti ada sesuatu yang menarik saat menyaksikan LLM membangun kastil.