Ez a harmadik (és egyben utolsó!) bejegyzés az AI4LAM Értékelési Munkacsoport által a chatbotok által generált tudományos cikkek összefoglalóinak értékeléséről szóló blogsorozatban.
Az első bejegyzésben elmagyarázták, miért érdekelte a csoportot a chatbotok által generált összefoglalók, és hogyan állították össze a kísérletet azok értékelésére.
A második bejegyzésben beszámoltak az értékelés eredményeiről. Ebben a bejegyzésben az értékelés lebonyolításának folyamatára összpontosítanak, reflektálva a felmerült kihívásokra és a folyamat által felvetett kérdésekre.
Emlékeztetőül: a chatbotok által generált összefoglalók értékelése során a cikkek összefoglalóit az eredeti absztraktokkal (kivonatokkal) hasonlították össze. Minden absztraktban nagyjából 10 kulcspontot határoztak meg, és az összefoglaló 1 pontot kapott, ha tartalmazta az adott kulcspontot, ellenkező esetben pedig 0-t. Emellett kvalitatív (minőségi) megfigyeléseket is rögzítettek az ezen pontozási módszer alkalmazása során szerzett tapasztalataikról. Heti megbeszéléseken megvitatták a ránk bízott összefoglalóknak adott pontszámokat, és kvalitatív megfigyeléseiket kiegészítették az egyetértéseikre és nézeteltéréseikre vonatkozó feljegyzésekkel.
A pontozott összefoglalók 32%-ához rögzítették kvalitatív megfigyeléseket. A munkacsoport 5 tagjából 4 rögzített ilyen megfigyeléseket, tagonként 3 és 14 közötti mennyiségben. Összesen 33 megfigyelést rögzítettek a 87 összefoglaló-értékelésük során (minden összefoglalót 3 munkacsoport-tag pontozott). Ezekből 5 megfigyelés azonban azt jelezte, hogy rossz cikk lett feltöltve a chatbothoz összefoglalásra, így ezeket kizárták a kvalitatív elemzésből és a reflexiókból.
Bár értékelésük kvantitatív elemzése arra utal, hogy a chatbotok ígéretes eszközök lehetnek a kutatási cikkek összefoglalására, a kvalitatív elemzés olyan árnyalatokat is megragad az értékelési folyamatban, amelyek a kvantitatív pontozási eljárásunkban nem tükröződnek. Ezen árnyalatok egy része a manuális munka természetéből fakad: a heti találkozókon időnként felismerték, hogy a pontozási módszerük alkalmazásakor következetlenek voltak abban, hogy milyen szigorúan értelmezték az összefoglalókat és az absztraktokat. Nagyobbrészt azonban ezek az árnyalatok a nyelv szubjektív aspektusaiból és az értelmezések eltéréséből fakadnak.
Esetenként a chatbot által generált összefoglalók váratlan módon tartalmazták a cikkek absztraktjaiból származó kulcspontokat. Például egyes chatbot-összefoglalók egy magasabb szintű áttekintést nyújtottak, amely érintette egy-egy kulcspont gondolatát, de nem tartalmazott ugyanolyan mértékű részletességet vagy konkrétumot. Más chatbotok összefoglalói tartalmazták ugyan a kulcspontot, de ahelyett, hogy egyetlen mondatba sűrítették volna – ahogyan az az eredeti absztraktban szerepelt –, az összefoglaló több mondatában elszórva jelent meg.
A pontozás során akkor is nehézségekbe ütköztek, amikor a chatbotok összefoglalói tartalmazták, de átfogalmazták a kulcsfontosságú pontot. Néha az átfogalmazás hasznosnak tűnt, mert kevésbé szakterület-specifikus terminológiát használva érthetőbbé tette a cikk célját egy szélesebb közönség számára. Máskor azonban az átfogalmazás azt, ami az absztraktban egyértelműen ki volt mondva, sokkal implicitabbé (rejtettebbé) tette, elbagatellizálva egy olyan gondolatot vagy érvet, amely jelentősnek tűnt a cikk szempontjából. Míg bizonyos esetekben úgy érezték, hogy az átfogalmazás elfogadható vagy akár előnyös is volt, máskor úgy gondolták, hogy a kivonat eredeti terminológiáját kellett volna használni, mert az alapvető fontosságú volt a cikk szempontjából.
Természetesen nem mindig értettek egyet abban, hogy mennyire fontosak bizonyos terminológiák! Hosszú vitát folytattak a „’A Womb of My Own’” című cikk (
Black, 2025) összefoglalóiról, vitatva, hogy a „test autonómiája” és a „reprodukciós autonómia” ugyanazt jelenti-e.
Végül voltak olyan esetek, amikor úgy érezték, hogy a csevegőrobot által generált összefoglalók félrevezetőek voltak. Például egy kulcsfontosságú pont az volt, hogy „Ezt az AI-bíró pontosságát egy külön benchmark segítségével is tesztelték”, de a cikkben az AI-bíró pontosságát ugyanazzal a benchmarkkal tesztelték, amelyet a cikk egy korábbi részében is használtak. Bár az ilyen típusú félrevezetések csak az esetek kis részében fordultak elő, jelentős kockázatot jelentenek. Ha valaki chatbotot használ olyan szöveges dokumentumok összefoglalására, amelyeket nem olvasott el, annak érdekében, hogy gyorsan megértse a benne leírtak célját vagy jelentőségét, előfordulhat, hogy a cikk megállapításairól vagy érveiről kissé vagy teljesen eltérő képet kap.
Az, hogy bizonyos kulcsfontosságú pontok hiányoznak vagy félrevezetőek az összefoglalóban, nem mindig tükröződött a kvantitatív pontszámokban. Például az „A Womb of My Own” című cikk (
Black, 2025) egyik összefoglalása az absztrakt kulcsfontosságú pontjainak 72%-át fedte le, de egy kvalitatív megfigyelés megjegyezte: „Szerintem elég jelentős, hogy nem említi kifejezetten, hogy a nők hangja kimaradt Alito többségi véleményéből!”
Bár több értékelési megközelítést is kipróbáltak, mielőtt az absztraktok kulcsfontosságú pontjainak 0-ás és 1-es pontszámmal történő értékelésénél maradtak, az ezzel a pontozási módszerrel kapcsolatos kihívások felvetették a kérdést, hogyan lehetne javítani rajta:
– A kulcsfontosságú pontokat az absztrakt vagy a cikk szempontjából betöltött jelentőségük alapján kellene súlyozni? Ha igen, hogyan értékelhető ez a jelentőség?
– Különbözőképpen kell-e büntetni a modellt a kulcsfontosságú pontok félreértelmezése és kihagyása esetén? Például, kapjon-e egy kulcsfontosságú pont -1 pontot, ha félreértelmezik, és 0 pontot, ha kihagyják?
– Van-e olyan specifikus terminológia a kulcsfontosságú pontok között, amelyet szó szerint kell szerepeltetni az MI által generált összefoglalóban, vagy használhatók szinonimák?
A generatív MI-eszközök értékelésének legnagyobb kihívása természetesen az a tempó, amellyel fejlesztik őket. Ezt tovább bonyolítja az átláthatóság hiánya azzal kapcsolatban, hogy az eszköz vagy a mögöttes modell hogyan és mikor kerül frissítésre vagy lecserélésre. Összefoglalási kísérletünk során a HuggingChat platformot lekapcsolták (úgy tűnt, véglegesen), és bizonyos ellenőrzési kísérletek során – amikor azt vizsgáltuk, hogy a megfelelő PDF lett-e feltöltve a chatbothoz – azt tapasztaltuk, hogy nem mindig tudtuk visszakövetni, hogyan végeztük el a feltöltési és a promptolási folyamatokat.
A Munkacsoport egyik tagjának is nehézséget okozott kideríteni, hogy az intézménye pontosan mit vásárolt meg az eszköz funkcionalitását és képességeit tekintve, és csak később szerzett tudomást olyan testreszabható funkciókról, amelyek jobb eredményekhez vezettek az összefoglalási kísérletünkben. Ahogy egy másik munkacsoport-tag fogalmazott: a chatbotok és más generatív MI-platformok egyfajta utat biztosítanak egy információs ökoszisztémába. Általában azonban nem világos, hogy ez az információs ökoszisztéma pontosan mit tartalmaz, vagy hogy az ezen átvezető út során mi maradhat ki.
Értékelési kísérletünk rávilágított az úgynevezett „korszerű” (state of the art) MI-modellek képességei és az MI valós felhasználási eseteiben hasznos képességek közötti szakadékra. Ez két kérdést vetett fel:
– Milyen mértékben tudjuk az MI által generált szövegeket általánosítható módon értékelni? Lehetséges ez egyáltalán, vagy minden esetben egyedileg kell elvégezni?
– Ha az MI által generált szövegek értékelését esetenként kell elvégezni, ez milyen mértékben kérdőjelezi meg a modell teljesítményének értékelésére használt referenciatesztek (benchmarkok) értékét, vagy egy modell „korszerűként” való meghatározását?
A hiányos értékelési megközelítések és a folyamatosan változó kutatási eszközök következményeinek végiggondolása négy végső kérdéshez vezetett:
– Aláássák-e a generatív MI-modellek a tudományos kutatás legjobb bevált gyakorlatait, különös tekintettel a reprodukálhatóságra, a megismételhetőségre és az érvényességre (validitásra)?
– Mi történik, ha egy MI-modell egy kísérlet közepén megváltozik vagy eltűnik? Megéri-e a reprodukálhatóságot fenyegető kockázatot olyan eszközök használata, amelyek hosszú távú fennmaradását nem tudjuk garantálni?
– Mennyi bizonyosságot nyújthat a generatív MI-kimenetek bármilyen jellegű értékelése? Nem kellene-e kevesebbet gondolnunk a mérőszámokra (metrikákra) és többet a heurisztikára?
– Szükségünk van-e egy új értékelési megközelítésre, amely jobban figyelembe veszi a nagy, generatív MI-rendszerek relacionalitását (összefüggéseit) és a belső működésükkel kapcsolatos bizonytalanságokat?
Szerzők: Owen King, Vessela Ensberg, Lucy Havens, PhD, Dean Lingley és Breanne Kirsch, AI4LAM Értékelési Munkacsoport
A kép forrása a cikk.