Startup AI Prancis Mistral telah merilis model pertamanya yang dapat memproses gambar dan teks.
Disebut Pixtral 12B, model dengan 12 miliar parameter ini berukuran sekitar 24 GB. Tersedia melalui tautan torrent di GitHub dan Hugging Face, platform pengembangan AI dan pembelajaran mesin, Pixtral 12B dapat diunduh, disempurnakan, dan digunakan berdasarkan lisensi standar Mistral, yang memerlukan lisensi berbayar untuk aplikasi komersial apa pun, tetapi tidak untuk keperluan penelitian dan akademis. (Parameter secara kasar sesuai dengan keterampilan pemecahan masalah suatu model, dan model dengan lebih banyak parameter umumnya berkinerja lebih baik daripada model dengan lebih sedikit parameter.)
Dibangun berdasarkan model teks Mistral, Nemo 12B, model baru ini dapat menjawab pertanyaan tentang jumlah gambar yang tidak terbatas dengan ukuran yang tidak terbatas yang diberikan baik URL gambar maupun gambar yang dikodekan menggunakan skema pengodean biner ke teks, base64. Seperti model multimoda lainnya seperti keluarga Claude milik Anthropic dan GPT-4o, Pixtral 12B seharusnya — setidaknya secara teori — dapat melakukan tugas seperti memberi teks pada gambar dan menghitung jumlah objek dalam sebuah foto.
Sayangnya, penulis ini tidak dapat mencoba Pixtral 12B — belum ada demo web yang berfungsi saat artikel ini dipublikasikan. Dalam sebuah posting di X, Sophia Yang, kepala hubungan pengembang Mistral, mengatakan bahwa Pixtral 12B akan segera tersedia untuk pengujian pada chatbot Mistral dan platform penyedia API, Le Chat dan Le Platforme.
Tidak jelas data gambar mana yang mungkin digunakan Mistral untuk mengembangkan Pixtral 12B.
Sebagian besar model AI generatif, termasuk model Mistral lainnya, dilatih pada sejumlah besar data publik dari seluruh web, yang seringkali dilindungi hak cipta. Beberapa vendor model berpendapat bahwa hak “penggunaan wajar” memberi mereka hak untuk mengambil data dari sumber yang tidak sah. setiap data publik, tetapi banyak pemegang hak cipta tidak setuju, dan telah mengajukan tuntutan hukum terhadap vendor yang lebih besar seperti OpenAI dan Midjourney untuk menghentikan praktik tersebut.
Pixtral 12B hadir setelah Mistral mengumpulkan dana sebesar $645 juta yang dipimpin oleh General Catalyst yang menilai perusahaan tersebut senilai $6 miliar. Baru berusia lebih dari satu tahun, Mistral dipandang oleh banyak orang di komunitas AI sebagai jawaban Eropa untuk OpenAI. Strategi perusahaan yang lebih muda sejauh ini melibatkan peluncuran model “terbuka” gratis, mengenakan biaya untuk versi terkelola dari model tersebut, dan menyediakan layanan konsultasi kepada pelanggan korporat.