Model AI “penalaran” baru, QwQ-32B-Preview, telah hadir. Ini adalah salah satu dari sedikit yang menyaingi o1 OpenAI, dan ini adalah yang pertama tersedia untuk diunduh di bawah lisensi permisif.
Dikembangkan oleh tim Qwen Alibaba, QwQ-32B-Preview, yang berisi 32,5 miliar parameter dan dapat mempertimbangkan permintaan hingga panjang ~32.000 kata, berkinerja lebih baik pada tolok ukur tertentu dibandingkan o1-preview dan o1-mini, dua model penalaran yang dirilis OpenAI sejauh ini. Parameter secara kasar sesuai dengan keterampilan pemecahan masalah model, dan model dengan lebih banyak parameter umumnya berperforma lebih baik dibandingkan model dengan parameter lebih sedikit.
Berdasarkan pengujian Alibaba, Pratinjau QwQ-32B mengalahkan model o1 OpenAI pada pengujian AIME dan MATH. AIME menggunakan model AI lain untuk mengevaluasi kinerja model, sedangkan MATH adalah kumpulan soal kata.
QwQ-32B-Preview dapat memecahkan teka-teki logika dan menjawab pertanyaan matematika yang cukup menantang, berkat kemampuan “penalarannya”. Tapi itu tidak sempurna. Alibaba mencatat dalam postingan blognya bahwa model tersebut mungkin berganti bahasa secara tidak terduga, terjebak dalam loop, dan berkinerja buruk pada tugas-tugas yang memerlukan “penalaran akal sehat.”
Tidak seperti kebanyakan AI, QwQ-32B-Preview dan model penalaran lainnya secara efektif memeriksa fakta sendiri. Hal ini membantu mereka menghindari beberapa kendala yang biasanya membuat model tersandung, namun kelemahannya adalah mereka sering kali membutuhkan waktu lebih lama untuk menemukan solusi. Mirip dengan o1, QwQ-32B-Pratinjau alasan melalui tugas, perencanaan ke depan, dan melakukan serangkaian tindakan yang membantu model mencari jawaban.
QwQ-32B-Preview, yang dapat dijalankan dan diunduh dari platform pengembang AI Hugging Face, tampaknya mirip dengan model penalaran DeepSeek yang baru-baru ini dirilis karena model ini tidak membahas subjek politik tertentu. Alibaba dan DeepSeek, sebagai perusahaan Tiongkok, tunduk pada tolok ukur yang dibuat oleh regulator internet Tiongkok untuk memastikan respons model mereka “mewujudkan nilai-nilai inti sosialis.” Banyak sistem AI Tiongkok menolak menanggapi topik yang mungkin menimbulkan kemarahan regulator, seperti spekulasi mengenai rezim Xi Jinping.
Ketika ditanya “Apakah Taiwan bagian dari Tiongkok?”, QwQ-32B-Preview menjawab bahwa hal tersebut adalah — sebuah perspektif yang tidak sejalan dengan sebagian besar negara di dunia, namun sejalan dengan pandangan partai yang berkuasa di Tiongkok. Sementara itu, desakan mengenai Lapangan Tiananmen tidak mendapat tanggapan.
QwQ-32B-Preview tersedia “secara terbuka” di bawah lisensi Apache 2.0, artinya dapat digunakan untuk aplikasi komersial. Namun hanya komponen tertentu dari model yang telah dirilis, sehingga tidak mungkin untuk mereplikasi Pratinjau QwQ-32B atau mendapatkan banyak wawasan tentang cara kerja sistem.
Meningkatnya perhatian pada model penalaran terjadi seiring dengan kelayakan “hukum penskalaan”, yaitu teori lama yang menyatakan bahwa memberikan lebih banyak data dan daya komputasi pada suatu model akan terus meningkatkan kemampuannya, kini mendapat sorotan. Banyaknya laporan pers menunjukkan bahwa model dari laboratorium AI besar termasuk OpenAI, Google, dan Anthropic tidak meningkat secara dramatis seperti sebelumnya.
Hal ini menyebabkan perebutan pendekatan, arsitektur, dan teknik pengembangan AI baru. Salah satunya adalah komputasi waktu pengujian, yang mendukung model seperti QwQ-32B-Preview. Juga dikenal sebagai komputasi inferensi, komputasi waktu pengujian pada dasarnya memberi model waktu pemrosesan tambahan untuk menyelesaikan tugas.
Laboratorium besar selain OpenAI dan perusahaan Tiongkok bertaruh bahwa komputasi pada saat uji coba adalah masa depan. Menurut laporan terbaru dari The Information, Google telah memperluas tim internal yang berfokus pada model penalaran menjadi sekitar 200 orang, dan menambah kekuatan komputasi yang besar dalam upaya tersebut.