Az összefoglalók kvantitatív elemzése
A nagy nyelvi modellek (LLM-ek) egyik gyakori alkalmazási területe a szövegek összefoglalása. A csoport célja az volt, hogy megértsék, hogyan teljesítenek a modell által generált összefoglalók az ötletek átadásának szempontjából, nem pedig a ROUGE vagy a BLEU-hoz hasonló módszerekkel számított nyelvi hasonlóság tekintetében.
Az LLM-ek által generált válaszok értékelésére számos módszer létezik. Egy gyakori módszer az, hogy egy modell két választ generál, vagy két modell egymás mellett generál egy-egy választ, és a felhasználó értékeli a kapott szöveget. Azonban ezekben az esetekben a felhasználók teszik fel a kérdést, így valószínű, hogy nem ők azok a szakértők, akik eldönthetik, melyik válasz a jobb. Ez a modell teljesítményének relatív, nem pedig abszolút értékelését eredményezi.
A csoport szeretett volna létrehozni egy eredménytáblát az elterjedt LLM-ek számára, valamint egy konzisztens adatkészletet, amellyel az újabb modellek is tesztelhetők. Szerettük volna meghatározni, mennyire hasznosak az LLM-ek a lektorált (peer-reviewed) szakirodalom összefoglalásában, amely az egyik leggyakrabban használt forrás, amit a könyvtárak az olvasóiknak biztosítanak. Egy lektorált, publikált cikk összefoglalásának tesztelésekor elméletileg már rendelkezésre áll egy aranystandard (etalon), a szerző által írt absztrakt. Ez lett a stratégia alapköve.
A módszertant e
blogbejegyzés 1. része ismerteti. A pontszámok törtként történő normalizálásának folyamatát a következő példa szemlélteti. Ha egy összefoglaló az absztraktból azonosított 10 kulcspontból hetet tartalmazott, az összefoglaló 0,7-es pontszámot kapott. Ha egy összefoglaló az absztraktból azonosított 15 kulcspontból 10-et tartalmazott, 0,75-ös pontszámot kapott. Összehasonlították a különböző modellek átlagait az összefoglalt cikkek alapján, hogy meghatározzák a teljesítményüket. Azt is megvizsgálták, hogy a modellek összességében milyen jól foglalták össze a különböző cikkeket, ezeket a különbségeket ebben a bejegyzésben osztották meg.
Az I. táblázat a webes felületen keresztül elérhető ChatGPT 4 Turbo értékelését tartalmazza. Az eredeti absztrakt legfontosabb pontjainak generálásához a kontroll absztraktot használták. Az „összefoglaló” oszlop tartalmát ezeknek a pontoknak a jelenléte szempontjából értékelték, és 1-es vagy 0-s értékkel jelölték meg őket. Ebben a példában a 11 legfontosabb pontból 9 szerepelt az összefoglalóban, ami a cikk esetében 0,82-es modellpontszámot eredményezett. A generált összefoglalók és a pontozási adatkészlet elérhető a [Dryad DOI ide kerül] címen.
Bár a modell által készített összefoglalók nem tartalmazták az eredeti absztraktok összes kulcspontját, a ChatGPT érte el a legmagasabb pontszámot, míg a Claude és a Gemini szorosan egymás mellett teljesítettek (II. táblázat). Az Llama zárta a rangsort. A csoport általános benyomása az volt, hogy a ChatGPT, a Gemini és a Claude különböző felületein keresztül generált összefoglalók világosak voltak, elegendő információt tartalmaztak, és bizonyos esetekben még érthetőbbé is tették a tartalmat az olvasók számára.
Azt is megállapították, hogy a hozzáférés módja nagyban befolyásolhatja a modell teljesítményét. Például a Deepseek-41:70b távoli szerverhez való hozzáférésünk
egy egyetemi szerveren futó Open WebUI felületen keresztül történt. Még a dokumentumok bevitelére vonatkozó paraméterek módosítása után is előfordult, hogy a modell a következő választ adta: „Sajnos nem tudok hozzáférni a csatolt dokumentumokhoz, beleértve a kutatási cikkeket sem, és azokat nem tudom áttekinteni.” Tudták, hogy a probléma nem magával a modellel volt, mert a Deepseek csevegőfelületén keresztül ugyanazon cikkből magas pontszámú összefoglalót tudtunk generálni. Az IT-osztálytól megerősítést kaptak arra vonatkozóan, hogy a probléma abból adódott, hogy a PDF-elemzés észrevétlenül meghiúsult, anélkül, hogy erről a felhasználót tájékoztatták volna. Ezért eltávolították a Deepseek r1:70b pontszámát ebből a jelentésből, mivel a beállítás nem tette lehetővé a megfelelő értékelést. A Deepseek r1:70b-t a csevegőfelületen keresztül is tesztelték, és megállapították, hogy az a beállítás megbízható. Mivel azonban nem tesztelték több művel, azt az eredményt sem jelentették. A felmerült probléma rávilágít arra, hogy az LLM-eket futtató rendszerek közötti különbségek jelentős eltéréseketeredményezhetnek, és a feltöltött dokumentumok feldolgozásának átláthatatlansága félrevezető vagy egyéb problémákat okozhat. Nagyon könnyű kísérletezni az alapértelmezett paraméterekkel, ahogy ők is tették, és nem észrevenni, hogy bizonyos újrakonfigurálásra van szükség.
Végül pedig eltérés mutatkozott abban is, hogy a modellek milyen eredményesen foglalták össze az egyes cikkeket. A csoporttagok egyetértettek abban, hogy bár a modellek által a „The Impact of Large Language Models on Computer Science Student Writing” című cikkre készített összefoglalók nem egyeztek meg az eredeti absztrakttal, ezek az összefoglalók jobb minőségűek és olvasmányosabbak voltak, mint az eredeti absztrakt. Ez megkérdőjelezi az absztrakt mint aranystandard alkalmazását, amikor az absztraktok minősége változó. Másrészt ez talán alátámasztja azt a korábbi megfigyelést, hogy az LLM-ek hasznos eszközök, amelyek javíthatják az emberi teljesítményt olyan területeken, ahol fejlesztésre van szükség. Potenciálisan diagnosztikai eszközként is szolgálhat: ha például a modell összefoglalása és az emberi absztrakt közötti átfedés körülbelül 30 százalék vagy annál kevesebb, akkor az absztraktot felül kell vizsgálni a fejlesztési lehetőségek felismerése érdekében.
Elgondolkodtak azon, mi magyarázhatja az LLM-összefoglalók és az eredeti absztraktok közötti eltérést. Az egyik lehetőség az, hogy az emberek által emberek számára írt absztraktok felvázolják a „nagy képet”, hogy kontextust adjanak a munkájuk fontosságának és relevanciájának. Ez a nagy kép azonban a cikk szövegének csak egy apró töredékét teheti ki, és ezért kimarad a generált összefoglalóból, annak ellenére, hogy a promptban (utasításban) kérték a következők belefoglalását: „Kutatási kontextus: Ha a kutatási cikk tárgyalja, kérjük, említse meg a kapcsolódó korábbi kutatásokat és azok fontosságát.”
Egy másik megvitatandó terület a szakterületi jártasság (szakértelem). Úgy tűnik, a modellek hasonlóan jól működtek a kémiai biológia, az informatika és a jog területén írt cikkek esetében. A filozófiai művet („Az erős társadalmi antiredukcionizmus újbóli vizsgálata” / Matsumoto, 2025) azonban valamivel nehezebb volt a modellek számára összefoglalni. Úgy gondolják, hogy ez a többszörös rétegeknek (többrétegűségnek) és az érvek közötti logikai összefüggéseknek tudható be. Tekintettel arra, hogy szakterületenként csak egy-egy cikk állt rendelkezésre, korai lenne még messzemenő következtetéseket levonni. A további vizsgálatok nagyon sokatmondóak lehetnek. A munkacsoport szeretné felhívni a figyelmet arra, hogy egy cikk eredményeinek modell által generált összefoglaló alapján történő értelmezése bizonyos esetekben félrevezető (helytelen) lehet. Például az egyik összefoglaló az RL379-et nevezi meg a legígéretesebb vegyületnek az Islam és társai (2025) cikkben, ami úgy tűnik, az RMSD-eredmények félreértelmezéséből fakad.
A szakterületi jártasság másik oldalát nézve, a csoport tagjai többször is feltették maguknak a kérdést, vajon helyesen értelmezik-e az eredeti absztrakt tartalmát. Ezt az aggodalmat úgy próbáltuk kezelni, hogy cikkenként legalább egy összefoglalót csoportosan elemeztek. Néhányan elgondolkodtak a
Gell-Mann-amnézián – vagyis azon, hogy hajlamosak vagyunk-e figyelmen kívül hagyni a kritikai ítélőképességünk következményeit egy általunk ismert területen, amikor egy olyan terület információit próbáljuk meg értékelni, amelyet nem ismerünk. A pontszámok a teljes átláthatóság érdekében elérhetők.
Kiszámítottuk a ROUGE-pontszámokat is, hogy lássák, hogyan fest egy automatizált összehasonlítás az absztrakt és az LLM-összefoglaló között. A IV. táblázatban az R1 precizitás (pontosság) eredményeit mutatják be, mivel ezek voltak a legmagasabb pontszámok a számítás során, bemutatva az R Lsum pontszámokat is, mivel ismereteik szerint az R L és R Lsum mutatók alkalmasabbak az összefoglaló teljesítményének tükrözésére. Azonban nem látják a saját értékelési rendszerük (pontozásuk) mintázatát tükröződni a ROUGE-pontszámokban. Ebből arra a következtetésre jutottak, hogy az általuk kidolgozott kulcspont-adatkészlet sikeresen felhasználható az automatikus összefoglalási mutatók értékelésére.
Következtetés
A munkacsoport megállapította, hogy a tesztelt nagy nyelvi modellek által generált összefoglalók segítenek a használt cikkek megértésében, egyes esetekben pedig egyértelműbbé teszik a szerzők által nyújtott tartalmat. Kísérleteik eredményei alapján azt javasoljuk, hogy ha pontszámítási módszerüket más, modell által generált összefoglalókra alkalmazzák, és a modell által generált összefoglaló pontszáma 0,3 vagy annál alacsonyabb, akkor ellenőrizni kell a modell környezeti beállításait hibák szempontjából, és átvizsgálni az eredeti absztraktot. Ugyanakkor még korai lenne a tesztelt modellek által generált összefoglalókat véglegesnek tekinteni, és az emberi ítélettől és szakértelemtől függetlenül használni. Jövőbeli kísérletek során össze lehetne hasonlítani a cikkek modell által generált összefoglalóit a cikkek teljes szövegével. Míg az AI területén gyors a fejlődés, értékelési módszerünk továbbra is releváns marad az új generációs LLM-ek értékeléséhez.
Szerzők: Owen King, Vessela Ensberg, Lucy Havens, PhD, Dean Lingley és Breanne Kirsch, AI4LAM Értékelési Munkacsoport (Evaluation WG)