Csak szöveggenerálás, de baj is lesz belőle – Mesterséges intelligencia – MIBE-klub Ződi Zsolttal

Senki nem tudja az MI társadalmi hatását előre megjósolni – kezdte Ződi Zsolt, jogász, jogi informatikus, jelenleg az NKE kutatója a MIBE-klubban. – Ugyanis minden technológiának vannak előre nem várt hatásai. Például a Facebook-ot és a platformizálódást sem tudta senki megjósolni (társas életünket is ilyen weboldalakon éljük, pl. posztolással, lájkolással érintkezünk). ChatGPT-től lehet például jogi tanácsot kérni, jogi szöveget megfogalmazni, ha kiiktatjuk majd a „hallucinációt”. Mint mondta: jogászként is szövegből állít elő szövegeket, mint ahogy a ChatGPT is. Tehát konkurens is az eszköz. De ettől még nem kell megijedni.

A nagy nyelvi modellek (Large Language Models) – melyre épül pl. a ChatGPT is – jelenlegi korlátja például, hogy

bizonyos elvárt outputoknál meg kell kerülnünk a rendszert: úgy kell átalakítanunk kérdésünket, a promptot, hogy a rendszer bizonyos kérdésekre deklaratív válaszokat adjon, nem úgy, mint most (például: ügyvédi irodánk nyitva tartásának kérdésére a helyes és csak a helyes választ adja; elkerülve a hallucinálást)
ha ad forrásokat – melyekre a hitelesség és minőségbiztosítás miatt van szükség –, akkor csak szimulálja azokat (a Bingnél megjelölt forrásokban előfordul, hogy nem is abból a forrásból idézett, vagy nem is az van a kapott szövegben)
jelenlegi működésében a szöveggenerálás során a szavak előfordulásának valószínűségét vizsgálja, miközben azok jelentését próbálja meg reprezentálni (a szemantikus keresőnél is az volt a probléma, hogy nem lehetett annyi metaadatot felvenni, amennyi előfordul; nehéz volt megállapítani, hogy mikor melyiket vegyék elő).

A randomizáció – tehát a leginkább jónak tűnő válaszok közötti válogatás lehetőségének szintje – beállítható, és ennek növelésével emberibbnek tűnhet a válasz.

Információkeresésben tehát az MI semmilyen újdonságot nem hozott: szövegből állít elő szöveget. Az információkeresés két válfajából – „Known item search” és az utóbbi önkényes döntéseket is tartalmazó „Subject search”-ből – a ChatGPT ez előbbit elrontotta: inkább elkezd halandzsázni. Az utóbbival kapcsolatban viszont – mivel nem tudja, hogy milyen célból tesszük fel a kérdést -, gyakran iterálnunk kell a kérdéseket. Meghatározott szövegeken való tanítás esetén ugyanakkor megadhatjuk a súlyokat. Ha ezt nem pontosítjuk, akkor a magukat jobban leíró szövegforrásokból inkább keres. Ez befolyásolja a hierarchiát, márpedig a jogi szövegeknek meg van a belső hierarchiája. Tevékenysége így nem forráshasználat, hanem szöveggenerálás. Ezért fordulhat elő, hogy nem találjuk meg általa a forrást.

A 2010-es években kezdték a természetes nyelvi szövegfeldolgozásba beágyazni a jelentésfeldolgozást. Azzal magyarázták, hogy az embereknek van egy előismeret halmazuk, ami a gépnek nincs beágyazás (embedding) működése: mondatok jelentését is leképezik, szócsoportok és szavak ebbe ágyazódnak be. A szövegnek is van egy vektoros ábrázolása, egyre magasabb matematikai reprezentációk jönnek létre. Ebben nézi meg a ChatGPT, hogy mi van a legközelebb. (NLP további típusai pl. gépi fordítás, összefoglaló készítés.)

Meg lehet-e majd adni, hogy milyen adatbázisokból szeretném megkapni a választ? – hangzott a résztvevői kérdés. Ződi Zsolt: Igen, de ha megtanítod mindig előre, az nagyon körülményes. Olyan, mint mikor megírod a puskát, akkor addigra megtanulod az anyagot. Másrészt a ChatGPT-nek van API-ja, ami mintha pont ilyet tudna. Jelenleg azonban nincs forráshasználat.

Puszta szöveggenerálás! – nyomatékosította Zsolt. – A jog viszont nem csak szövegekből áll, hanem társadalmi gyakorlat is. Jogász legfontosabb kérdése, hogy a társadalmi gyakorlatot hogyan konvertálja szöveggé. Ezt a ChatGPT nem tudja rekonstruálni, mert csak szövegből állít elő szöveget. Ugyanarra a bemenetre nem mindig ugyanaz a kimenet jön! Ez is az emberszerűség része, randomizálás.

Ha nem tudjuk, mi a kimenet, akkor ki lehet a felelős? Fejlesztő, tanítást végző, vagy működtető? – szólt a kérdés. – Készült szabályozási javaslat; az AI Act – mondta a vendég. – Olyan korlátozások vannak benne, mint például

nem használható a pszichológiai manipuláció, vagy a Kínában használt social scoring stb.
a magas kockázatú területeken való használatnak (pl. közmű hálózat biztonsági rendszer, hazugságvizsgáló, arcfelismerés) vannak feltételei: számba kell venni a lehetséges kockázatokat, ezek kezelését
data governance működtetés: hogyan kell adatokkal táplálni a gépi tanulást, pl. nem lehet elfogult – mindenféle népcsoportból kell venni mintákat, programozói csapatnak is diverznek kell lenni.

Ugyanakkor a kockázat ellehetetleníti az innovációt. Néhány kockázat kezelése túl költséges, és vannak kockázatok, amire nem lehet felkészülni, pl. ChatGPT is ilyen – mert nem domainspecifikus, hanem általános. Ezzel nem számolt az AI Act. A MI ugyanis lerántotta az egész internetet, személyes adatokkal együtt. Csak az elmúlt hónapban 200 appot írtak a ChatGPT fölé. És ezt már nem lehet megállítani és visszacsinálni.

Az olasz szabályozás betiltotta a ChatGPT-t. Nem alaptalanul. A mai világ azonban nem kompatibilis az adatvédelem korábbi szabályozásaival. Új volt például a közösségi média viselkedés alapó adatgyűjtése is, mert a profilalkotása nem fér össze a hagyományos adatvédelemmel. De tanulságos, hogy a betiltást követően hirtelen 2000-szeresére növekedett a VPN-re való Google-keresések száma. Ezért nem lehet már megúszni a katasztrófákat, biztosan ijesztő dolgok fognak még történni, hiába próbálják az államok megvédeni a polgáraikat. (Habók Lilla – Mikulás Gábor)

Magyar Információbrókerek Egyesülete

Csak szöveggenerálás, de baj is lesz belőle – Mesterséges intelligencia – MIBE-klub Ződi Zsolttal

Vélemény, hozzászólás? Kilépés a válaszból