A nagy nyelvi modellek tanítását szolgáló adatgyűjtés (web scraping) az elmúlt néhány évben ugrásszerűen megnövekedett, ami a hatalmas botforgalommal terheli túl az olyan nyílt hozzáférésű infrastruktúrákat, mint a DOAJ. Ebben a bejegyzésben a DOAJ platformmenedzsere, Brendan O’Connell fejti ki, miként reagálnak ezekre a kihívásokra.
A ChatGPT 2022-es elindítása óta lehetetlen elkerülni a mesterséges intelligencia hatalmas ígéreteiről és veszélyeiről szóló híradásokat. A mindennapi életben pedig nehéz nem észrevenni az MI-alapú chatbotok beépülését szinte minden digitális rendszerbe, amellyel kapcsolatba kerülünk, legyen szó keresésről, e-mailezésről vagy online vásárlásról.
Az MI térnyerését olyan szervezetek is élénk érdeklődéssel követték, mint a DOAJ, amelyek a globális nyílt hozzáférési mozgalmat működtető infrastruktúrát biztosítják. Az elmúlt évben az MI jelentős hatást gyakorolt rendszereikre és szervereikre, új kihívások elé állítva az olyan nyílt hozzáférésű infrastruktúrákat, mint a DOAJ.
A nagy nyelvi modelleknek (Large language model, LLM), mint amilyen az OpenAI GPT-je (mely leginkább népszerű chatbotjáról, a ChatGPT-ről ismert) vagy a Google Gemini modellje, folyamatos „táplálásra” van szükségük ember által generált tartalom formájában, hogy javítsák pontosságukat, terjedelmüket és mélységüket. Ez a táplálás túlnyomórészt adatgyűjtés (web scraping) útján történik – robotok segítségével rögzítik a teljes internet nyílt (és gyakran a zárt hozzáférésű) tartalmait. Ezt a tartalmat használják fel az LLM-ek tanítására és fejlesztésére.
Az automatizált adatgyűjtés (web scraping) nem újdonság, hiszen
már több mint 30 éve ez a Google és más keresőmotorok alapját képező kulcsfontosságú technológia. Azonban a jelenlegi, befektetők által támogatott MI-startup-láz azt jelenti, hogy
ma már több ezer jól finanszírozott vállalat fejleszti és alkalmazza saját adatgyűjtő eszközeit az MI-modellek képzéséhez, az olyan meglévő nagy szereplők mellett, mint az OpenAI és a Google.
Az MI-adatgyűjtő robotok veszélyeztetik a nyílt internetet
A webes adatgyűjtés ezen robbanásszerű növekedésének hatása a nyílt internetre – beleértve a nyílt hozzáférésű (Open Access), a könyvtárak és a kulturális örökség infrastruktúráit – funkcionálisan megegyezik egy másik, szintén régi, de rosszindulatúbb automatizált szkriptezési technikával, amely éppen 2026-ban lesz 30 éves: a szolgáltatásmegtagadással járó (
Denial of Service, DoS) támadással. A DoS (vagy elosztott szolgáltatásmegtagadás, DDoS) támadások során egy rosszindulatú szereplő szándékosan lassítani vagy leállítani kíván egy webhelyet azáltal, hogy hatalmas mennyiségű automatizált botforgalommal árasztja el, átmenetileg túlterhelve a rendelkezésre álló szervererőforrásokat.
2025 volt az az év, amikor az LLM-ek táplálására szolgáló, új keletű, MI-vezérelt és mértéktelen adatgyűjtés hivatalosan is működésképtelenné tette az internet jelentős részeit. Olyan nyílt hozzáférésű (Open Access) és kulturális örökséggel foglalkozó szervezetek dokumentáltak nyilvánosan lassulásokat, leállásokat és megnövekedett szerverköltségeket a botforgalom hatalmas megugrása miatt, mint a
Wikipedia, a
University of Chapel Hill Libraries, valamint a
Directory of Open Access Books. A „bottámadás” kifejezés mára gyűjtőfogalmává vált a tisztán rosszindulatú DoS-támadásoknak, valamint a befektetők által finanszírozott MI-adatgyűjtő robotok okozta forgalom-csúcsokra.
Hogyan kezeli a DOAJ az adatgyűjtő robotokat?
2025 eleje óta a DOAJ webhelyének forgalma folyamatos növekedést mutat. A tavalyi év első hat hónapjában 43%-kal több látogatást regisztráltak, mint 2024 azonos időszakában, és a forgalom hónapról hónapra egyenletesen emelkedett.
2025 utolsó hat hónapjában azonban már 419%-os növekedést tapasztaltak a 2024-es év azonos időszakához képest. Ez a folyamat november közepén csúcsosodott ki egyetlen nap alatt, amikor a forgalmuk 968%-kal haladta meg az egy évvel korábbit. Ez jelentős lassulást okozott mind a nyilvános webhelyük látogatói, mind a szerkesztőségi csapatuk számára, akik belső rendszerüket használják a folyóiratok DOAJ-ba való felvételi kérelmeinek elbírálásához.
Rendszerüket novemberben további szervererőforrások hozzáadásával gyorsan stabilizálták, emellett szelektív MI-bot-blokkolást és védelmi stratégiákat vezettek be felhőszolgáltatóknál, a Cloudflare-nél. Bár ezek a gyors megoldások hatékonyak voltak az oldal stabilizálásában, jelentősen növelték a szerverköltségeiket.
Jelenleg számos webhelyszintű módosítást hajtanak végre a statikus tartalmak kiszolgálása érdekében, ami jelentősen csökkenti az API-k terhelését. Céljuk, hogy az év elején leállíthassák a többletszervereket. Példaként említhető az „Idézet exportálása” funkció, amely lehetővé teszi a cikk-hivatkozások letöltését: ezt úgy tervezték át, hogy a háttérben aszinkron módon generálja a statikus tartalmat. Mostantól, amikor egy emberi felhasználó vagy egy adatgyűjtő robot idézet letöltését kéri, az oldal először ellenőrzi, hogy készült-e már statikus verzió az adott tartalomból egy korábbi kérés során. Ha igen, a rendszer a statikus tartalmat szolgálja ki, mielőtt az API-hoz fordulna. Amennyiben a statikus tartalom még nem létezik, a rendszer lekérdezi az API-t, kiszolgálja az eredményt a felhasználónak, majd statikus tartalomként menti azt a szervereiken a későbbi felhasználás céljából.
Ez a változás lehetővé teszi, hogy minimalizálják a felesleges API-lekérdezéseket, amelyek számításigényesebbek, mint a statikus tartalom kiszolgálása, és így hajlamosabbak lassulást okozni az emberi felhasználók számára, amikor ugyanazokat a végpontokat botok ismételten elérik. 2026 elején további változtatásokat fognak végrehajtani webhelyük architektúrájában, hogy a jövőben, amikor a botok forgalmában nagy ugrások történnek, akkor a szerkesztői csapatuk adminisztratív munkafolyamatai ne legyenek érintettek.
Az MI különös ellentmondásokat szül a nyílt hozzáférés (OA) számára
A nyílt hozzáférésű infrastruktúrák, mint amilyen a DOAJ is, különös új valósággal néznek szembe: jelentős munkatársi időt és pénzt költenek a robotok hozzáférésének blokkolására, éppen a nyílt tudáshoz való emberi hozzáférés megőrzése érdekében. Ezt a munkát tovább bonyolítja a „jó” és a „rossz” botok szétválogatása: miközben igyekeznek javítani a DOAJ-cikkek megjelenését a Google találati listáin azáltal, hogy ösztönözzük a Google keresőrobotjainak indexelését, ezzel párhuzamosan blokkolniuk kell más adatgyűjtőket, amelyek lassítják oldalukat az emberi felhasználók számára.
Ez a munka nemcsak többletköltség, és nemcsak a nyílt hozzáférésű szervezet mibenlétének alapvető fogalmait kérdőjelezi meg, hanem – ahogy a Lyrasis Community AI Discussions munkacsoportja
megjegyzi – „minden egyes óra, amelyet az MI-alapú adatgyűjtés kezelésére fordítunk, egy olyan óra, amelyet nem az intézmény küldetéséhez közvetlenebbül kapcsolódó feladatokra fordítunk.”
Az MI másik különös iróniája az olyan nyílt infrastruktúrák számára, mint a DOAJ, hogy miközben szenvednek a mértéktelen botforgalom negatív hatásaitól, ők és partnereik maguk is kutatjuk az MI alkalmazásának lehetőségeit szervezeteikben. Jó példa erre a Zenodo AIRDEC (
AI-assisted Repository DEposit and Curation) projektje, amely az MI rendszereikbe történő integrálásával egy „örömteli, alacsony terheléssel járó, költséghatékony és skálázható repozitóriumi feltöltési és kurálási élmény” létrehozására törekszik.
További olvasnivaló
A Nyílt Hozzáférésű Repozitóriumok Konföderációja (The Confederation of Open Access Repositories, COAR) nemrégiben tette közzé a „
Dealing With Bots: A COAR Resource for Repository Managers” (A robotok kezelése: COAR-forrásgyűjtemény repozitóriumkezelőknek) című kiadványát. Ez egy átfogó útmutató a szabálytalanul működő botok okozta problémakörhöz, valamint az OA-repozitóriumok által a kezelésükre bevezetett sikeres mérséklési stratégiákhoz.
Brendan O’Connell a DOAJ
platformmenedzsere. Több mint 10 éve dolgozik felsőoktatási könyvtárakban és nyílt hozzáférésű infrastruktúrákban könyvtárosként, szoftvermérnökként és termékmenedzserként. A DOAJ-nál végzett munkája során a felhasználói igények és a technikai megoldások közötti hidak építésére összpontosít a globális nyílt hozzáférési mozgalom előmozdítása érdekében.
A kép forrása a cikk.