Az emberiség kulturális emlékezetét őrző intézmények, a galériák, könyvtárak, levéltárak és múzeumok, összefoglaló néven a GLAM-szektor (galleries, libraries, archives, and museums) egy olyan paradoxonnal néz szembe, amely meghatározza az MI-fejlesztés jelenlegi szakaszát. Archívumaik éveken át tartó, gondos digitalizálása a fizikai gyűjteményeket az emberi tudás hatalmas, géppel olvasható repozitóriumaivá alakította. Ugyanakkor éppen az a nyitottság, amely ezeket a gyűjteményeket a nyilvánosság számára ajándékká tenné, most kiszolgáltatja őket az MI-iparág képzési adatok iránti csillapíthatatlan étvágyának, ami adatkinyeréshez, piacosításhoz és visszaélésekhez vezet. Az eredmény egy alapvető adatirányítási kérdés: Hogyan tarthatják fenn a GLAM-intézmények a fenntartható szuverenitást az általuk gondosan kezelt adatkészletek felett, miközben hűek maradnak ahhoz a küldetésükhöz, hogy megosszák a világ tudását a nyilvánossággal?
Az extraktív adatgyűjtés (data harvesting) irányítási válsága
A
GLAM-E Lab társigazgatója,
Michael Weinberg által készített,
Kiszorítják az MI-botok a kulturális örökséget az internetről? című 2025-ös jelentés egy aggasztó tendenciát dokumentált: az MI-cégek által telepített automatizált botok agresszív rajokban, szisztematikusan lekérdezik (web scraping) az online GLAM-gyűjteményeket, ami túlterheli a szerverinfrastruktúrát, és néha teljesen offline állapotba, online elérhetetlenné teszi az archívumokat.
A jelentés rámutatott, hogy „a 43 válaszadó közül 39-en tapasztaltak a közelmúltban forgalomnövekedést. A forgalomnövekedést tapasztaló 39 válaszadó közül 27-en ezt az MI-képzési adatokat gyűjtő botoknak tulajdonították, további heten pedig úgy vélték, hogy a botok is hozzájárulhattak a forgalomhoz.” A válaszadók arról számoltak be, hogy a szerverek perceken belül elérték a 100%-os CPU-terhelést, és működésképtelenné váltak, amíg a botok át nem tértek a következő célpontra; míg mások az MI-adatgyűjtők részéről érkező, tartós denial-of-service-szintű (DoS) támadásokról számoltak be. A Wikimedia jelentése szerint a legerősebb forgalmának 65%-a botoktól származott, ami rendszerszintű költségeket ró egy olyan intézményre, amelynek működése a lakossági támogatástól függ.
Ez a jelenség két különböző szinten érvényesül:
- Etikai szinten alapvető kérdéseket vet fel a „nyílt” hozzáférés jelentéséről a kereskedelmi célú mesterséges intelligencia fejlesztésének korában, mivel az intézmények ritkán járulnak hozzá – akár hallgatólagosan, akár más módon – ahhoz, hogy gyűjteményeiket profitérdekelt mesterségesintelligencia-laboratóriumok forrásmegjelölés, viszonosság vagy intézményi párbeszéd nélkül „bányásszák le”. A jelenleg rendelkezésre álló irányítási mechanizmusok gyakorlatilag nem megfelelőek: a robots.txt utasításokat rendszeresen figyelmen kívül hagyják, az IP-blokkolást pedig a botok könnyen kijátszhatják azzal, hogy egyszerre több száz címet váltogatnak.
-
Technikai szempontból ez egyre növekvő infrastrukturális költségeket ró azokra az intézményekre, amelyek gyakran krónikus költségvetési szűkösség mellett működnek, tovább súlyosbítva a kulturális és örökségvédelmi szektorban világszerte tapasztalható
általános finanszírozási megszorításokat. Az intézmények így tehetetlennek érezhetik magukat az extraktív adatgyűjtéssel szemben, vagy nyomás alá kerülhetnek, hogy kedvezőtlen adatlicencelési ügyleteket kössenek új bevételek generálása érdekében. Mivel az MI-képzési adatokat szabályozó jogi keretrendszer a különböző joghatóságok között továbbra is mélyen kétértelmű, a meglévő adatkészleteiken keresztül új bevételi forrásokat kereső GLAM-szervezeteket joggal tántoríthatja el a vevőkereséstől az a félelem, hogy olyan kizárólagossági megállapodásra kényszerülnek, amely megakadályozná őket abban, hogy adataikat más intézményekkel is megosszák.
Mozilla Data Collective: Egy új adatkezelési paradigma
Pontosan ebben a kontextusban jelenik meg a
Mozilla Data Collective (MDC) mint a GLAM-szektor számára strukturálisan jelentős beavatkozás. Két alapvető Mozilla-projektre, a
Common Voice-ra és a
Data Futures Lab-re építve az MDC-t hivatalosan a 2025 novemberében Barcelonában megrendezett
15. Mozilla Fesztiválon indították el. Több millió dolláros kezdőtőke támogatással rendelkezik, és a
Mozilla Alapítvány által inkubált első társadalmi vállalkozásként működik.
Az MDC robusztus, biztonságos és ellenőrzött hozzáférést kínál az adatkészletekhez, és növeli azok láthatóságát azáltal, hogy más nagy értékű adatkészletek mellett is bemutatja őket. Architektúrájának felépítése egy olyan elvre épül, amely éles ellentétben áll a kereskedelmi MI-szereplők által jelenleg kihasznált extraktív modellel: a közreműködők megtartják az adatkészleteik feletti teljes tulajdonjogot, és teljes mértékben ők szabályozzák a hozzáférési feltételeket. Az intézmények dönthetnek úgy, hogy nyíltan osztják meg az adatokat a meglévő licencek (pl. Creative Commons vagy NOODL) alatt, de kialakíthatnak egyedi, a saját irányítási követelményeikre szabott licencelési kereteket is. Megnyithatják az adatokat mindenki számára, vagy korlátozhatják a hozzáférést a letöltők bizonyos kategóriáira, például tudományos kutatókra, nem kereskedelmi felhasználókra vagy azonos értékrendet képviselő szervezetekre. Az adatkészletek továbbra is a jogos tulajdonosaik birtokában maradnak; az MDC egy önkiszolgáló platform, amely teljes irányítást ad az alkotók kezébe. Ha a felhasználók díjat szeretnének kérni az adataik használatára vonatkozó licencért, az MDC nem vesz le belőle részesedést; mindössze egy szerény, 5%-os díjat számítanak fel a letöltőknek a tárolás és az adatforgalom költségeinek fedezésére. Az alapelv antiextraktivista: a szervezeteknek továbbra is birtokolniuk kell az adataikat, és elsődleges haszonélvezőivé kell válniuk azok megosztásának, a saját feltételeik szerint.
A GLAM-intézmények számára ez forradalmi jelentőségű. Az MDC lehetővé teszi az intézmények számára, hogy aktív, tudatos résztvevőkké váljanak a mesterséges intelligencia adatgazdaságában, és úgy lett kialakítva, hogy figyelembe vegye a GLAM-szektor szervezeti és adatkészlet-sokszínűségét egyaránt. Az MDC kiáll a multikulturális és többnyelvű adatok bevonása mellett, mint a méltányosabb MI alapja: olyan adatkészleteket gondoz, amelyek az indonéz podcasthanganyagoktól a tatár folklórig, Észak-Uganda közszolgálati rádiójától az örmény menekültek és bevándorlók beszámolóit tartalmazó beszédkorpuszig terjednek.
Az intézmények teljes mértékben megőrzik az ellenőrzést az adatkészleteik felhasználása felett. Sokan választják például a Creative Commons Nevezd meg! - Ne add el! 4.0 Nemzetközi (CC-BY-NC-4.0) licencet, de a saját értékeikhez igazítják azt. Egyesek megtiltják adataik használatát olyan rendszerekben, amelyeket egyének vagy közösségek megfigyelésére, profilozására vagy elnyomására szánnak, míg mások megtagadják az adatkészleteikhez való hozzáférést az 1 millió dollárnál nagyobb éves bevétellel rendelkező vállalatoktól. Az adatkészletekhez hozzáférő személyeket hitelesítik, és jogilag kötelező érvényű szerződések kötik őket annak biztosítására, hogy az adatok felhasználása az azokat birtokló intézmény szándékainak megfelelően történjen.
A digitális hajtóerőtől a kulturális infrastruktúráig
A GLAM-szektor kritikus ponthoz érkezett. Azokat az évtizedes beruházásokat, amelyek a fizikai gyűjteményeket digitális tudássá alakították, most az MI-iparág bizonyos szereplői (gyakran engedély, kompenzáció vagy forrásmegjelölés nélkül) a saját céljaikra használják fel. A szektor hagyományos elkötelezettségét a nyitottság iránt – amely az egyik legnagyobb hozzájárulása volt a köztudat építéséhez – most ellene fordítják azok a szereplők, akik számára a kulturális örökség csupán egy újabb bemeneti adat a képzési adatok ellátási láncában.
A válasz nem a korlátozásokba való visszavonulás kell hogy legyen. A kulturális örökség a nyilvánosságé, és a GLAM-szektor küldetése, hogy hozzáférést biztosítson hozzá. A kihívást az jelenti, hogy olyan irányítási keretek kerüljenek kidolgozásra, amelyek elég kifinomultak ahhoz, hogy tiszteletben tartsák ezt a küldetést, miközben érvényesítik azt az intézményi autonómiát, amely ahhoz szükséges, hogy ezeket az értékes adatkészleteket olyan entitások és olyan módon használják, ami összhangban van az adatszolgáltatók értékeivel és céljaival.
A Mozilla Data Collective egy ilyen modellt kínál: platformot biztosít, ahol az intézmények saját feltételeik szerint, jogilag kötelező érvényű keretek között oszthatják meg, licencelhetik és kaphatnak kompenzációt az adataikért, valódi cserévé alakítva a kulturális intézmények és a kereskedelmi MI közötti jelenlegi aszimmetriát. Felhatalmazza a GLAM-intézményeket, hogy az MI-adatökoszisztéma aktív, megbecsült és szuverén résztvevői legyenek azáltal, hogy lehetővé teszi számukra az adatkészleteik tetszés szerinti létrehozását, gondozását és ellenőrzését. Lehetővé teszi a GLAM-intézmények számára, hogy adataikat a küldetésükhöz és céljaikhoz hű módon irányítsák.
Egy olyan korban, amikor az emberiség kulturális archívumát használják fel a jövő intelligens rendszereinek felépítéséhez, létfontosságú, hogy a galériáknak, könyvtáraknak, levéltáraknak és múzeumoknak jelentős beleszólásuk legyen a folyamatba.