Jedna od najpoznatijih neprofitnih organizacija u području intelektualnog vlasništva – Creative Commons – najavljuje novu inicijativu usmjerenu prema transparentnijem i pravednijem korištenju sadržaja u digitalnom okruženju. Projekt nazvan CC Signals trebao bi pomoći vlasnicima podataka da jasno komuniciraju uvjete pod kojima se njihovi podaci mogu koristiti – posebice kada je riječ o treniranju AI modela.
Projekt je osmišljen kao odgovor na sve veće napetosti između koncepta otvorenog interneta i rastuće komercijalizacije podataka koju predvode tehnološki divovi u utrci za naprednijim algoritmima. Organizacija upozorava kako bi neregulirano „rudarenje podataka“ moglo potaknuti zatvaranje online materijala, povlačenje sadržaja iza paywallova i ograničavanje pristupa informacijama koje su dosad bile javno dostupne.
„CC Signals su dizajnirani kako bi sačuvali digitalno zajedništvo u doba AI-ja“, istaknula je izvršna direktorica Creative Commonsa, Anna Tumadóttir. „Kao što su naše licence oblikovale temelje otvorenog weba, vjerujemo kako će CC Signals na sličan način pomoći pri izgradnji AI ekosustava temeljenog na uzajamnom poštovanju i transparentnosti.“
CC Signals predlaže strukturiran sustav oznaka koji kombinira pravnu osnovu i etičke smjernice. U praksi bi to značilo da vlasnici sadržaja mogu označiti svoje podatke s jasnim uputama o tome smiju li i kako smiju biti korišteni u svrhe treniranja umjetne inteligencije.
Alat bi trebao omogućiti veću kontrolu nad digitalnim sadržajem, ali i olakšati odgovorno korištenje podataka od strane tvrtki koje razvijaju AI platforme.
Tehnološke kompanije već sada eksperimentiraju s različitim oblicima zaštite podataka. Reddit, primjerice, koristi robots.txt kako bi spriječio pristup botovima koji prikupljaju podatke za AI. Cloudflare istražuje mehanizme naplate AI botovima, dok su open-source developeri razvili alate koji usporavaju rad „neposlušnih“ botova, trošeći im procesorske resurse.
S druge strane, društvene mreže poput X-a (bivšeg Twittera) povremeno su dopuštale korištenje javnih podataka trećim stranama za treniranje AI-ja, da bi te odluke naknadno revidirale – što upućuje na regulatornu neujednačenost i poslovnu neodlučnost u ovom području.