SzavazásCsak szolgáltatunk vagy gyártsunk is információs tartalmakat könyvtárosként?
KIT hírlevél évfolyamok2025
|
Globális versenyfutás zajlik a szöveges adatbázisokértA mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.
A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelvi korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, "emberibb" válaszokat adnak majd csevegés közben. Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia. A betanító adatbázis döntő része - közel kétharmada - egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a "webaratásokból" állít össze szabadon felhasználható korpuszt. A GPT-3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták - állítólag szabadon hozzáférhető - digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is. A lehetséges megoldások között felmerült, hogy érdemes lenne az információs korszak előtti évszázadokban született írásműveket, könyveket, cikkeket, tanulmányokat digitalizálni, ám ez is csak ideig-óráig enyhítené az LLM-ek forráséhségét.
Hírforrás:
HVG (40. sz.) / térítéses tartalom
2024. október 16. • Továbbküldöm a hírt Link e hírhez: |
FeliratkozásA heti ingyenes KIT Hírlevelet megrendelheted a kit@gmconsulting.hu-ra írt "Megrendelés" tárgyú levéllel, név és intézmény megadásával, mellyel jelzed az Adatkezelési tájékoztatóban foglaltak elfogadását. A hírlevél lemondása: ugyanígy, de „Lemondás” tárgymegjelöléssel. KIT - hírcsokrok
Néhány tematikus gyűjtemény a lapból
HírlevélrőlA hírlevél hetente (júliusban, augusztusban kéthetente), térítésmentesen, csak elektronikus formában jelenik meg. A KIT nyomtatott példányai megtalálhatók a Könyvtörténeti és Könyvtártudományi Szakkönyvtárban is (Könyvtári Intézet, Budapest). A KIT tulajdonosa: GM Info Consulting Kft. |
impresszum | szerkesztők | észrevétel e portálról |