Najważniejsza kradzież dzieł sztuki w historii ludzkości, czyli jak Meta wykorzystała piracką literaturę do szkolenia AI. Legalne ścieżki zostały opisane jako „nadmiernie kosztowne” i „niezwykle żmudny” proces
Dyskusje na temat sztucznej inteligencji trwają od lat. Jednak dopiero niedawno zaczęliśmy częściej z nią wchodzić w interakcje. Niemniej jednak zapotrzebowanie na ogromne ilości tekstów najwyższej jakości okazało się poważnym wyzwaniem dla systemów szkoleniowych AI.
Warto zauważyć, że książki są jednym z najłatwiej dostępnych źródeł tekstu. W przeciwieństwie do stron internetowych, które dostarczają treści dostosowane do optymalizacji pod kątem wyszukiwarek (SEO), oferują one wysokiej jakości materiały. Jest to kluczowe, ponieważ sztuczna inteligencja, która jest szkolona na AI, obniża swoją własną jakość , a większość treści online została już wyprodukowana przez AI. Dlatego literatura opublikowana przed 2020 r. zapewnia, że nie zawiera materiałów wygenerowanych przez AI.
Według raportu The Atlantic, Mark Zuckerberg, CEO Meta, zatwierdził wykorzystanie LibGen (skrót od „Library Genesis”), nielegalnego repozytorium plików, które dostarczało materiałów do szkolenia modelu AI Meta. Założony około 2008 roku w Rosji, LibGen hostuje ponad 7,5 miliona plików składających się z książek i 81 milionów plików artykułów badawczych. Jest to jedna z największych internetowych bibliotek pirackich na świecie, służąca jako cenne źródło dla wielu studentów (i, jak się okazuje, również dla innych).
The Atlantic informuje, że pracownicy Meta nawiązali współpracę z różnymi firmami w sprawie licencjonowania książek do rozwoju AI, ale wyniki były niezadowalające. „Wydaje mi się to nadmiernie kosztowne” — powiedział jeden z pracowników na wewnętrznym czacie firmy. Starszy członek zespołu Llama 3 zauważył, że byłoby to również „niezwykle powolne” przedsięwzięcie.
Po ujawnieniu tej sytuacji społeczności autorów na całym świecie starają się podjąć kroki prawne przeciwko Meta. W marcu 2025 r. francuscy wydawcy i autorzy ogłosili zamiar podjęcia takich działań. Vincent Montagne, prezes Krajowego Stowarzyszenia Wydawców, oskarżył Meta o „lekceważenie praw autorskich i pasożytnictwo” podczas konferencji prasowej. W Polsce Związek Literatów (stowarzyszenie broniące praw autorów)
wzywa również autorów do zapoznania się z bazą danych The Atlantic.
– Jesteśmy świadkami tego, co najważniejsze