Az archívumok és a speciális gyűjtemények többféle típusú forrást tartalmaznak, amelyek különböző metaadatokkal kapcsolatos munkafolyamatokat igényelnek. A források leírása könyvtári katalógusokban, digitális adattárakban vagy keresőeszközökben található, és a metaadatok a platformok, a gyűjtemények prioritásai és az intézményi politikák miatt nagyban eltérhetnek egymástól. Az egyedi forrásokhoz való online hozzáférés és a keresés biztosítása folyamatos kihívást jelent az inkonzisztens vagy hiányos metaadatok és az új digitális hozzáférhetőségi szabványok miatt. A mesterséges intelligencia (MI) új lehetőségeket kínál az archívumokban és a speciális gyűjteményekben található egyedi forrásokhoz való hozzáférés biztosítására.
Ez a blogbejegyzés – az OCLC Kutatókönyvtári Partnerség (RLP) Metaadatok munkafolyamatokban történő MI kezelése munkacsoportjának munkájáról szól – a Metaadatok speciális és egyedi gyűjteményekhez munkaterületre összpontosít. Bemutatja a tagok által jelenleg alkalmazott MI-t és betekintést nyújt abba, hogyan lehet megítélni, hogy az MI alkalmas-e egy adott feladatra, és felveti a pontosság és az adatok eredete kapcsán felmerülő nyitott kérdéseket.
Ez a munkacsoport különböző intézmények, köztük egyetemi könyvtárak, nemzeti levéltárak és múzeumok metaadat-szakértőit hozta össze. Közös szakértelmük és megosztott felhasználási eseteik értékes betekintést nyújtottak abba, hogy az MI-eszközök hogyan tudnak megoldást nyújtani a különleges és egyedi gyűjtemények egyedi kihívásaira. A csoport tagjai a következők voltak:
Helen Baer, Colorado Állami Egyetem
Jill Reilly, Nemzeti Levéltár és Nyilvántartási Hivatal
Amanda Harlan, Nelson-Atkins Művészeti Múzeum
Mia Ridge, British Library
Miloche Kottman, Kansasi Egyetem
Tim Thompson, Yale Egyetem
Integráció a meglévő eszközökben
A résztvevők elsősorban azokat az eszközöket említették, amelyek már rendelkezésükre állnak az intézményükkel kötött meglévő licencszerződések révén. Bár ez a koncepció igazolására szolgáló kísérletek esetében működik, ezek az ad hoc megközelítések nem skálázhatók termelési szintre, és nem biztosítják a kívánt hatékonyságnövekedést. A résztvevők kifejezték, hogy integrált eszközöket szeretnének használni a már általuk használt könyvtári munkafolyamatokban.
A metaadatokkal kapcsolatos munka során régóta jellemző, hogy több eszközt is használnak. A katalóguskártyák idején egy katalóguskészítőnek legalább egy könyvespolca tele lehetett LCSH-kötetekkel (azaz a nagy piros könyvekkel), LCC-kötetekkel, AACR2-kkel, LCRI-kkel, néhány nyelvi szótárral, néhány helyi szabályzati dokumentumot tartalmazó iratgyűjtő mappával és természetesen egy írógép-kézikönyvvel. Ma egy katalogizáló számítógépén négy vagy öt alkalmazás lehet megnyitva, beleértve egy böngészőt több lappal. A digitális gyűjteményekkel való munka még tovább növeli ezt a komplexitást, mivel további eszközökre van szükség a tartalomkezeléshez, a fájlok szerkesztéséhez és a projektek nyomon követéséhez. Mivel az MI már beépült több népszerű alkalmazásba, beleértve a keresőmotorokat is, a metaadatok kezelői remélik, hogy hasonló funkciók kerülnek beépítésre a meglévő munkafolyamatokba, ami potenciálisan csökkentheti a sok jelszó, ablak és lap kezelésének terheit.
Entitáskezelés
Sok metaadat-kezelő, beleértve alcsoportunk tagjait is, álmodik a meglévő entitás-adatbázisokkal való automatizált egyeztetésről. Ez még fontosabbá válik az archívumok esetében, amelyek gyakran tartalmaznak olyan családi iratgyűjteményeket, amelyekben több tag is szerepel azonos névvel. Az egyik résztvevő megjegyezte, hogy az egyértelműsítéshez az URI-k előnyösebbek, mivel korlátozott adatelemekből álló készletet használva egyedi, engedélyezett hozzáférési pontokat kell létrehozni a személyek számára. Ezután természetesen felmerül a kérdés: „Hogyan segíthet ebben az MI?”
Készség és szükséglet
Minden résztvevő jelezte, hogy szervezete bizonyos mértékben érdekelt az MI kipróbálásában a jelenlegi metaadatokkal kapcsolatos igényeinek kielégítése érdekében. A speciális gyűjteményekben és archívumokban jellemző egyedi munkafolyamatok és műveletek miatt az MI által az emberi szakértelem helyettesítésével kapcsolatos aggodalmak kevésbé voltak jellemzőek, mint az általános katalogizálási alcsoportban.
Három tényezőt azonosítottunk, amelyek befolyásolják az MI kipróbálására való hajlandóságukat:
- Hagyományos munkamegosztás
- Leírandó erőforrások mennyisége
- Az akadálymentességi követelmények teljesítése
Hagyományos munkamegosztás
Az archívumokban végzett munkában az egyes tételek leírását, például a képaláírásokat és átírásokat, gyakran nem metaadatszakértők, hanem önkéntesek és diákmunkások végzik el, mivel a tételek mennyisége nagy, és hiányozhat a szakértelem. Például az Egyesült Államok Nemzeti Levéltári és Nyilvántartási Hivatala (NARA) a
Citizen Archivist önkéntes programra támaszkodik a digitalizált források címkézésében és átírásában. Még ezeknek az elkötelezett önkénteseknek a segítségével is a NARA MI által generált leírásokat használ a források hatalmas száma miatt. A NARA önkéntesei azonban minőségellenőrzést végeznek a MI által generált metaadatokon, és a MI által generált metaadatok mennyisége biztosítja, hogy ezekre az önkéntesekre továbbra is szükség lesz, és őket továbbra is nagyra értékeljék.
Az erőforrások mennyisége
Az archív gyűjtemények egyetlen tételtől több ezer tételig terjedhetnek, ami jelentős eltéréseket eredményez a leírás típusában és szintjében. A gyűjtemény tartalmát gyakran olyan kifejezésekkel foglalják össze, mint „főként gépelt szövegek” és „több francia nyelvű brosúra”. A gyűjtemények digitalizálásakor azonban a keresés és a hozzáférés támogatása érdekében részletesebb leírásra van szükség. A NARA munkafolyamata jól szemlélteti, hogyan használja az archívum az MI-t olyan leírások készítésére, amelyek emberi erővel nem lennének megvalósíthatók. Sok levéltáros nyitott az MI ilyen feladatokra való felhasználásának gondolatára, mert az erőforrások mennyisége miatt részletes metaadatok készítése nem volt lehetséges.
Az akadálymentességi követelmények teljesítése
Az akadálymentesség egyre nagyobb prioritást élvez a könyvtárak és archívumok számára, amit olyan jogi követelmények is ösztönöznek, mint az ADA II. címének az Egyesült Államokban történő betartásának határideje. A digitális gyűjtemények esetében ez azt jelentheti, hogy alternatív szöveget kell biztosítani a képekhez, beágyazott feliratokat és hangos leírásokat a videofelvételekhez, valamint teljes átiratokat az audiofelvételekhez.
Az egyik résztvevő megjegyezte, hogy az MI által generált átiratokkal kapcsolatos tapasztalatai alapján az MI jól teljesít az egynyelvű, beszélt szövegek átírásában. Az énekes és többnyelvű felvételek további árnyalatai azonban túl összetettek az MI számára. Ez természetes szelekciót jelent az intézményük hangfelvétel-átírási munkafolyamataiban.
A hangfelvételek átírása időigényes feladat, az archívumok pedig nagyrészt diákmunkásokra és önkéntesekre támaszkodnak ebben a munkában. Sok intézménynek van felhalmozódott, átírás nélküli felvétele. Így az MI használata az átírásokhoz lehetővé teszi számukra, hogy megfeleljenek az akadálymentességi követelményeknek, és növeljék ezeknek az erőforrásoknak a felfedezhetőségét.
Az MI használatával kapcsolatos kihívások és nyitott kérdések
Bár az MI számos lehetőséget kínál, a csoport több olyan kihívást és nyitott kérdést is azonosított, amelyekkel a sikeres megvalósítás érdekében foglalkozni kell. A metaadatok minősége és az adatok eredete voltak a legfontosabb kérdések a különleges és egyedi gyűjtemények esetében.
A metaadatok minőségének értékelése
Mi az elfogadható hibaarány az MI által generált metaadatok esetében? A résztvevők megjegyezték, hogy bár a tökéletesség elérhetetlen, még az emberi katalogizálók számára is, az intézményeknek egyértelmű referenciaértékekre van szükségük az MI-eredmények értékeléséhez. Az MI és a professzionális katalogizálók hibaarányainak összehasonlító tanulmányait bemutató kutatások értékes információkkal szolgálnának az MI bevezetésével kapcsolatos döntések meghozatalához, de jelenleg kevés ilyen eredmény áll rendelkezésre. A magas pontosság továbbra is kritikus fontosságú a könyvtári katalógusok minőségének fenntartása szempontjából, mivel egy entitás téves azonosítása helytelen információkat nyújt a felhasználóknak egy forrásról.
Az alcsoport a transzkripció pontosságának fogalmát is megvitatta. Például az MI által generált átiratok szószerintibbek lehetnek, míg az emberi átírók gyakran módosítják a formázást a kontextus és az olvashatóság javítása érdekében. A NARA egyik példája, amely egy
önkéntes által készített átiratot és egy
MI által létrehozott átiratot (az „Extracted Text” felirattal) mutat be, szemlélteti ezeket a különbségeket. Az emberi átírás a „Lily Doyle Dunlap” nevet ugyanarra a sorra helyezi, mint a „Mrs.”-t, míg az MI soronként átírja. Míg az emberi átíró a le nem írt szöveget „[olvashatatlan]”-ként jelölte meg, az MI „A”-ként írta át. Egyik sem tükrözi a leírtakat, így egyik sem tekinthető teljesen pontosnak. A metaadatok katalogizálásával ellentétben soha nem volt elvárás, hogy a dokumentumok vagy audiovizuális felvételek átírásai minden esetben tökéletesek legyenek, többek között a kézírás olvashatósága és az audio minősége miatt. Az egyik résztvevő úgy jellemezte az MI által generált átírásokkal kapcsolatos elvárásait, hogy „jónak kell lenniük, de nem tökéletesnek”.
Az egyik esettanulmányban a bizalmi pontszámokat használták mérőszámként annak meghatározására, hogy az MI által generált metaadatokat felülvizsgálat nélkül kell-e a felhasználók rendelkezésére bocsátani. A bizalmi pontszámok egy numerikus értéket adnak meg, amely jelzi az MI kimenetének helyességét. Például egy 70% feletti értéket lehetne küszöbértéknek meghatározni a felülvizsgálat nélküli adatátadáshoz. Mivel a bizalmi pontszámokat maguk a modellek adják meg, azok ugyanúgy tükrözik a modell képzését, mint annak kimenetét.
Adatok eredetének megadása
Az adatok eredete – azaz a metaadatok létrehozásának története – kritikus fontosságú kérdés az MI által generált eredmények esetében. Tekintettel az MI „hallucinációinak” (helytelen vagy hamis adatok generálásának) kockázatára, fontos, hogy a felhasználók információkat kapjanak az MI által létrehozott metaadatokról. Azok a munkacsoport tagok, akiknek intézményei jelenleg ilyen adatokat szolgáltatnak, megosztották gyakorlataikat. A NARA jelzi, hogy egy dokumentum átirata MI által generált, a „Contributed by FamilySearch NARA Partner AI / Machine-Generated” (Hozzájárult: FamilySearch NARA Partner AI / Géppel generált) standard szöveggel (
lásd ezt a példát egy nyomtatott és kézzel írt dokumentum kivont szövegére).
Az OCLC tisztába került ezen kérdések fontosságával és a következő módon nyújt támogatást:
- Frissített WorldCat dokumentáció:
A bibliográfiai formátumok és szabványok (BFAS) 3.5. szakasza mostantól tartalmaz útmutatást az MI által generált metaadatok rögzítéséről.
- AskQC Office Hours webinárium:
A 2025 augusztusi ülésen a bibliográfiai rekordokban szereplő adatok eredetének megadására összpontosítottak, beleértve az MI használatának eseteit is.
- Együttműködés az alapelvek és a bevált gyakorlatok terén:
Az OCLC részt vesz a Program for Cooperative Cataloging (Együttműködési Katalógizálási Program) MI és gépi tanulás katalogizálási és metaadatokra vonatkozó munkacsoportjában, amelynek célja irányelvek és bevált gyakorlatok kidolgozása az MI metaadatokkal kapcsolatos munkában való felhasználására vonatkozóan.
Összefoglalás
A metaadatokkal foglalkozó szakemberek régóta érdeklődnek a metaadatok biztosítása és fejlesztése iránt, amelyeket az automatizálás során használhatnak. Az MI a makrók, a címsorok vezérlése és a kötegelt frissítések mellett a legújabb technológiai eszköz ebben a törekvésben. Ml csoportunk esettanulmányai bebizonyították, hogy az MI-eszközök felhasználhatók speciális gyűjtemények munkafolyamataiban, amennyiben az MI jól illeszkedik a szükséges metaadatokhoz. A legvonzóbb alkalmazások a dokumentumok és felvételek átírását érintették, ahol az MI képességei, mint például az automatikus beszédfelismerés (ASR) és a természetes nyelvfeldolgozás (NLP), alkalmassá teszik az ilyen feladatokra.
A kép forrása a cikk.