Secara generatif Booming AI, data adalah minyak baru. Jadi mengapa Anda tidak bisa menjual milik Anda sendiri?
Mulai dari perusahaan teknologi besar hingga perusahaan rintisan, para pembuat AI melisensikan e-book, gambar, video, audio, dan lainnya dari pialang data, semuanya dalam upaya untuk melatih produk-produk bertenaga AI yang lebih mumpuni (dan lebih dapat dipertahankan secara hukum). Shutterstock memiliki kesepakatan dengan Meta, Google, Amazon, dan Apple untuk memasok jutaan gambar untuk pelatihan model, sementara OpenAI telah menandatangani perjanjian dengan beberapa organisasi berita untuk melatih modelnya di arsip berita.
Dalam banyak kasus, masing-masing pembuat dan pemilik data tersebut belum pernah melihat uang sepeser pun berpindah tangan. Sebuah startup bernama Vana ingin mengubah hal itu.
Anna Kazlauskas dan Art Abal, yang bertemu di kelas di MIT Media Lab yang berfokus pada pembangunan teknologi untuk pasar negara berkembang, mendirikan Vana pada tahun 2021. Sebelum Vana, Kazlauskas mempelajari ilmu komputer dan ekonomi di MIT, dan akhirnya keluar untuk meluncurkan fintech startup otomasi, Iambiq, dari Y Combinator. Abal, seorang pengacara perusahaan dengan pelatihan dan pendidikan, adalah seorang rekanan di The Cadmus Group, sebuah perusahaan konsultan yang berbasis di Boston, sebelum mengepalai impact sourcing di perusahaan anotasi data Appen.
Bersama Vana, Kazlauskas, dan Abal mulai membangun platform yang memungkinkan pengguna “mengumpulkan” data mereka – termasuk obrolan, rekaman ucapan, dan foto – ke dalam kumpulan data yang kemudian dapat digunakan untuk pelatihan model AI generatif. Mereka juga ingin menciptakan pengalaman yang lebih dipersonalisasi — misalnya, pesan suara motivasi harian berdasarkan tujuan kesehatan Anda, atau aplikasi penghasil seni yang memahami preferensi gaya Anda — dengan menyempurnakan model publik pada data tersebut.
“Infrastruktur Vana sebenarnya menciptakan perbendaharaan data milik pengguna,” kata Kazlauskas kepada TechCrunch. “Hal ini dilakukan dengan memungkinkan pengguna untuk mengumpulkan data pribadi mereka dengan cara non-penahanan… Vana memungkinkan pengguna untuk memiliki model AI dan menggunakan data mereka di seluruh aplikasi AI.”
Berikut cara Vana memperkenalkan platform dan API-nya kepada pengembang:
Vana API menghubungkan data pribadi lintas platform pengguna … untuk memungkinkan Anda mempersonalisasi aplikasi Anda. Aplikasi Anda mendapatkan akses instan ke model AI pengguna yang dipersonalisasi atau data yang mendasarinya, menyederhanakan proses orientasi dan menghilangkan masalah biaya komputasi… Kami berpendapat bahwa pengguna harus dapat membawa data pribadi mereka dari taman bertembok, seperti Instagram, Facebook, dan Google, ke aplikasi Anda, jadi Anda dapat menciptakan pengalaman personal yang luar biasa sejak pertama kali pengguna berinteraksi dengan aplikasi AI konsumen Anda.
Membuat akun dengan Vana cukup sederhana. Setelah mengonfirmasi email, Anda dapat melampirkan data ke avatar digital (seperti selfie, deskripsi diri Anda, dan rekaman suara) dan menjelajahi aplikasi yang dibuat menggunakan platform dan kumpulan data Vana. Pilihan aplikasi berkisar dari chatbot bergaya ChatGPT dan buku cerita interaktif hingga generator profil Engsel.
Sekarang mengapa, Anda mungkin bertanya – di era meningkatnya kesadaran privasi data dan serangan ransomware – akankah seseorang menyumbangkan informasi pribadinya ke perusahaan rintisan anonim, apalagi ke perusahaan rintisan yang didukung oleh perusahaan ventura? (Vana telah mengumpulkan $20 juta hingga saat ini dari Paradigm, Polychain Capital, dan pendukung lainnya.) Bisakah perusahaan yang berorientasi pada keuntungan benar-benar dipercaya untuk tidak menyalahgunakan atau salah menangani data yang dapat dimonetisasikan yang diperolehnya?
Menanggapi pertanyaan itu, Kazlauskas menekankan bahwa inti dari Vana adalah agar pengguna “mendapatkan kembali kendali atas data mereka,” mencatat bahwa pengguna Vana memiliki opsi untuk menghosting sendiri data mereka daripada menyimpannya di server Vana dan mengontrol bagaimana data mereka disimpan. data dibagikan dengan aplikasi dan pengembang. Dia juga berpendapat bahwa, karena Vana menghasilkan uang dengan membebankan biaya berlangganan bulanan kepada pengguna (mulai dari $3,99) dan memungut biaya “transaksi data” pada pengembang (misalnya untuk mentransfer kumpulan data untuk pelatihan model AI), perusahaan tidak diberi insentif untuk mengeksploitasi pengguna dan kumpulan data pribadi yang mereka bawa.
“Kami ingin membuat model yang dimiliki dan diatur oleh pengguna yang semuanya menyumbangkan data mereka,” kata Kazlauskas, “dan memungkinkan pengguna untuk membawa data dan model mereka ke aplikasi apa pun.”
Sekarang, sementara Vana tidak menjual data pengguna ke perusahaan untuk pelatihan model AI generatif (atau begitulah klaimnya), mereka ingin mengizinkan pengguna melakukan hal ini sendiri jika mereka mau — dimulai dengan postingan Reddit mereka.
Bulan ini, Vana meluncurkan apa yang disebutnya Reddit Data DAO (Digital Autonomous Organization), sebuah program yang mengumpulkan data Reddit beberapa pengguna (termasuk karma dan riwayat postingan mereka) dan memungkinkan mereka memutuskan bersama bagaimana data gabungan tersebut digunakan. Setelah bergabung dengan akun Reddit, mengirimkan permintaan ke Reddit untuk data mereka dan mengunggah data tersebut ke DAO, pengguna mendapatkan hak untuk memberikan suara bersama anggota DAO lainnya pada keputusan seperti melisensikan data gabungan ke perusahaan AI generatif untuk keuntungan bersama .
Ini adalah jawaban atas langkah Reddit baru-baru ini untuk mengkomersialkan data di platformnya.
Reddit sebelumnya tidak membuka akses ke postingan dan komunitas untuk tujuan pelatihan AI generatif. Namun perusahaan tersebut berbalik arah pada akhir tahun lalu, menjelang IPO-nya. Sejak perubahan kebijakan tersebut, Reddit telah meraup lebih dari $203 juta biaya lisensi dari perusahaan termasuk Google.
“Ide luasnya [with the DAO is] untuk membebaskan data pengguna dari platform utama yang berupaya menimbun dan memonetisasinya,” kata Kazlauskas. “Ini adalah yang pertama dan merupakan bagian dari upaya kami untuk membantu orang-orang mengumpulkan data mereka ke dalam kumpulan data milik pengguna untuk melatih model AI.”
Tidak mengherankan, Reddit — yang tidak bekerja dengan Vana dalam kapasitas resmi apa pun — tidak senang dengan DAO.
Reddit melarang subreddit Vana yang didedikasikan untuk diskusi tentang DAO. Dan juru bicara Reddit menuduh Vana “mengeksploitasi” sistem ekspor datanya, yang dirancang untuk mematuhi peraturan privasi data seperti GDPR dan California Consumer Privacy Act.
“Pengaturan data kami memungkinkan kami untuk membatasi entitas tersebut, bahkan pada informasi publik,” kata juru bicara tersebut kepada TechCrunch. “Reddit tidak membagikan data pribadi non-publik dengan perusahaan komersial, dan ketika Redditor meminta ekspor data mereka dari kami, mereka menerima kembali data pribadi non-publik dari kami sesuai dengan hukum yang berlaku. Kemitraan langsung antara Reddit dan organisasi yang terverifikasi, dengan persyaratan dan akuntabilitas yang jelas, penting, dan kemitraan serta perjanjian ini mencegah penyalahgunaan dan penyalahgunaan data masyarakat.”
Tapi apakah Reddit punya alasan kuat untuk khawatir?
Kazlauskas membayangkan DAO berkembang hingga berdampak pada jumlah yang dapat dibebankan Reddit kepada pelanggan atas datanya. Itu masih jauh, dengan asumsi hal itu pernah terjadi; DAO memiliki lebih dari 141.000 anggota, hanya sebagian kecil dari 73 juta basis pengguna Reddit. Dan beberapa dari anggota tersebut mungkin merupakan bot atau akun duplikat.
Lalu ada masalah bagaimana mendistribusikan pembayaran secara adil yang mungkin diterima DAO dari pembeli data.
Saat ini, DAO memberikan “token” — mata uang kripto — kepada pengguna yang sesuai dengan karma Reddit mereka. Namun karma mungkin bukan ukuran terbaik atas kontribusi kualitas pada kumpulan data — terutama di komunitas Reddit yang lebih kecil dan memiliki lebih sedikit peluang untuk memperolehnya.
Kazlauskas melontarkan gagasan bahwa anggota DAO dapat memilih untuk membagikan data lintas platform dan demografi mereka, sehingga menjadikan DAO berpotensi lebih bernilai dan memberi insentif bagi pendaftaran. Namun hal ini juga mengharuskan pengguna untuk lebih percaya pada Vana untuk memperlakukan data sensitif mereka secara bertanggung jawab.
Secara pribadi, saya tidak melihat DAO Vana mencapai masa kritis. Penghalang jalan yang menghalangi terlalu banyak. Namun, menurut saya, ini bukanlah upaya terakhir kelompok akar rumput untuk menegaskan kendali atas data yang semakin banyak digunakan untuk melatih model AI generatif.
Startup seperti Spawning sedang mencari cara untuk memungkinkan pembuat konten menerapkan aturan yang memandu bagaimana data mereka digunakan untuk pelatihan, sementara vendor seperti Getty Images, Shutterstock, dan Adobe terus bereksperimen dengan skema kompensasi. Tapi belum ada yang memecahkan kodenya. Bahkan bisa menjadi retak? Mengingat sifat kejam dari industri AI generatif, hal ini tentu saja merupakan hal yang sulit. Namun mungkin seseorang akan menemukan caranya – atau pembuat kebijakan akan memaksakannya.