Jika Anda pernah menggunakan ChatGPT Search atau Perplexity, Anda pasti tahu bahwa kemampuan menelusuri web dan melihat kutipan sebaris sangat meningkatkan chatbot AI ini. Hasil akan lebih baik bila melibatkan informasi yang tepat waktu, dan penelusuran web dapat mengurangi apa yang disebut halusinasi (yaitu ketika AI generatif mengeluarkan informasi yang salah).
Itu sebabnya startup Perancis Linkup sedang membangun API yang memungkinkan pengembang mengakses konten web dari sumber premium dan tepercaya dan menyerahkan hasilnya ke model bahasa besar (LLM) untuk memperkaya jawabannya. Banyak pengembang AI menyebut alur kerja ini Retrieval-Augmented Generation (atau RAG).
Lebih penting lagi, masa depan bot scraping tidak pasti. Jika tidak ada perjanjian finansial antara penerbit konten dan entitas yang menyalin halaman web, bot ini akan mengambil konten dari web terbuka tanpa membayar, dan banyak orang tidak senang dengan kesepakatan tersebut — sehingga meningkatkan pengawasan peraturan seputar pelatihan AI.
Saat ini juga terdapat kasus hukum tingkat tinggi, seperti tuntutan hukum yang sedang berlangsung antara OpenAI, pembuat ChatGPT, dan New York Times, sehingga situasi seputar web scraping dapat berubah dalam waktu dekat. Oleh karena itu mengapa OpenAI telah menandatangani perjanjian lisensi konten multi-tahun dengan penerbit besar seperti AP, Axel Springer, Condé Nast, El País, Financial Times, Le Monde, dan lainnya.
“Kami mendirikan perusahaan ini pada saat OpenAI sedang membuat kesepakatan dengan sumber berita… untuk tujuan pelatihan atau inferensi, untuk menambah jawaban dari model OpenAI dan produk mereka. Dan kami berpikir: 'Oke, ini bagus karena kami akhirnya memiliki perusahaan AI yang membayar sumber daya mereka,'” kata salah satu pendiri dan CEO Linkup Philippe Mizrahi kepada TechCrunch, memaparkan apa yang mendorong para pendiri untuk mendirikan bisnis yang menghubungkan pengembang AI dengan penyedia konten untuk — semoga — saling menguntungkan.
Saat ini, penerbit konten dihadapkan pada keputusan sulit mengenai apa yang harus dilakukan terhadap kehausan GenAI akan data. Mereka dapat memblokir web scraper menggunakan file metadata robots.txt yang tidak mengikat secara hukum, yang menunjukkan apakah suatu situs web dapat digunakan untuk melatih model AI atau tidak. Selain itu, mereka dapat menuntut perusahaan AI yang mereka yakini telah melanggar hak ciptanya. Alternatifnya, mereka dapat membiarkan bot mengindeks kontennya secara bebas (eh, YOLO?). Atau mereka mungkin dapat melisensikan konten kepada pengembang AI untuk mendapatkan imbalan atas kekayaan intelektual mereka.
Namun ada ribuan perusahaan teknologi yang menggunakan A namun tidak memiliki skala dan jangkauan OpenAI. Pada saat yang sama, hal yang hebat tentang web adalah banyaknya penerbit konten. Namun ini berarti penerbit konten kecil biasanya tidak memiliki sumber daya keuangan yang cukup untuk mengajukan tuntutan hukum. Hal ini juga berarti akan sulit untuk beralih dari model scraping ke model lisensi untuk jutaan situs web.
Itu sebabnya Linkup bukan sekadar solusi teknis. Ini adalah pasar — perantara antara penerbit konten dan perusahaan yang ingin menambah jawaban LLM mereka dengan konten web.
Linkup menandatangani perjanjian lisensi konten dengan penerbit dan berintegrasi dengan CMS mereka sehingga dapat mengambil konten dari penerbit tanpa adanya scraping. Linkup kemudian membayar mitra konten berdasarkan seberapa sering konten mereka diakses oleh klien Linkup.
“Kami benar-benar menargetkan aplikasi yang menerapkan AI pada produknya sendiri,” kata Mizrahi. “Jadi, kasus penggunaan umumnya adalah saya membuat aplikasi AI menggunakan model dari Mistral atau OpenAI. Saya membangun saluran pipa saya sendiri, tetapi saya perlu memperkaya saluran ini dengan informasi eksternal.”
Sebagai catatan tambahan, meskipun ChatGPT dapat menjelajahi web, model GPT tidak bisa. OpenAI menyediakan aplikasi yang sangat populer (ChatGPT) dan LLM yang dapat digunakan pengembang dengan API (GPT). Tapi pencarian web adalah fitur ChatGPT.
“Ada contoh yang saya suka, yaitu salah satu pelanggan kami… membangun aplikasi internal untuk tenaga penjualan mereka,” Mizrahi juga memberi tahu kami. “Di satu sisi, mereka telah mencantumkan semua keunggulan produknya sendiri. Dan terima kasih kepada kami, mereka mendapatkan informasi segar dan berkualitas tentang prospek mereka dan memasukkannya ke dalam Mistral LLM. Dan LLM Mistral akan menghasilkan semacam promosi penjualan untuk tenaga penjualan, yang akan mereka hadapi ketika mereka melakukan panggilan dengan prospek pelanggan.”
Pada awalnya, Linkup memutuskan untuk fokus pada informasi perusahaan dan bisnis. Selain situs web berita, startup ini juga bekerja dengan basis data pengetahuan – seperti Statista, Xerfi, atau sumber daya lain yang serupa.
Ini bukan satu-satunya startup yang berupaya menghadirkan konten premium ke LLM dengan kontrak lisensi di belakang layar. Pesaing yang paling terlihat adalah ScalePost, sebuah startup yang bekerja dengan Perplexity untuk mempercepat kesepakatan lisensi dengan penerbit.
Linkup mengumpulkan putaran benih senilai €3 juta ($3,2 juta dengan nilai tukar saat ini) beberapa bulan yang lalu dari Axeleo Capital, Motier Ventures, Seedcamp, dan seratus malaikat bisnis. Ada sekitar 10 orang yang bekerja untuk startup tersebut saat ini, dan mereka berencana untuk mempekerjakan 10 staf lagi pada tahun depan.