Keresés a KIT archivumában:  
Könyvtár Információ Társadalom
Heti hírlevél információs és könyvtári szakemberek számára - Szemlék, hírek, kommentárok    angol zászló english flag  

Globális versenyfutás zajlik a szöveges adatbázisokért

A mesterségesintelligencia-fejlesztők a nyelvi modelljeik betanításához keresik a nyersanyagot, a nagy tartalomszolgáltatók viszont védik a kreatív alkotásokat a kéretlen felhasználástól. Sürgősen szükség lenne áthidaló megoldásokra.

A tanulmány állításainak értelmezéséhez tudni kell, hogy a nagy nyelvi modellek azért lettek az utóbbi években ilyen jól használhatók (elsősorban angol nyelven), mert hatalmas szövegadatbázisokon, szaknyelvi korpuszokon tanítják be őket. Leegyszerűsítve: minél nagyobb, minél változatosabb és minél jobb minőségű az a szöveg, amelyen átrágják magukat az LLM-ek, annál értelmesebb, hasznosabb, "emberibb" válaszokat adnak majd csevegés közben.

Az, hogy mekkora méretűek és miből állnak össze az ominózus korpuszok, csak részben ismert, a fejlesztőcégek keveset árulnak el erről. A ChatGPT-ről például annyit tudni, hogy az alapmodelljét tréningező adatbázis is több százmilliárd szót tartalmazott. Ennek mindössze 3 százaléka volt a teljes angol nyelvű Wikipedia. A betanító adatbázis döntő része - közel kétharmada - egy webarchiváló projekt, a Common Crawl adatbázisából származott. Ez a kaliforniai nonprofit szervezet évente több alkalommal mintavételezi a teljes internetet, és ezekből a "webaratásokból" állít össze szabadon felhasználható korpuszt. A GPT-3-at ezeken kívül közösségimédia-platformok csevegésein pallérozták, valamint beletáplálták - állítólag szabadon hozzáférhető - digitalizált könyvek, tudományos közlemények, hírportálok cikkeinek szövegeit is.

A lehetséges megoldások között felmerült, hogy érdemes lenne az információs korszak előtti évszázadokban született írásműveket, könyveket, cikkeket, tanulmányokat digitalizálni, ám ez is csak ideig-óráig enyhítené az LLM-ek forráséhségét.

legyenek kit hírei saját honlapján

Feliratkozás

A heti ingyenes KIT Hírlevelet megrendelheted a kit@gmconsulting.hu-ra írt "Megrendelés" tárgyú levéllel, név és intézmény megadásával, mellyel jelzed az Adatkezelési tájékoztatóban foglaltak elfogadását.

A hírlevél lemondása: ugyanígy, de „Lemondás” tárgymegjelöléssel.




Hírlevélről

A hírlevél hetente (júliusban, augusztusban kéthetente), térítésmentesen, csak elektronikus formában jelenik meg. A KIT nyomtatott példányai megtalálhatók a Könyvtörténeti és Könyvtártudományi Szakkönyvtárban is (Könyvtári Intézet, Budapest).

A KIT-archívum tartalma:
Közel 28.000 hír, 2002-től
A KIT-et az EPA (Elektronikus Periodika Adatbázis) is archiválja.

A megrendelők száma kb.:
700 fő

Olvasói létszám:
kb. 1000 fő

Adatvédelem
A KIT szerkesztői a birtokukba kerülő használói adatokat bizalmasan kezelik, azt csak az eredetileg megjelölt célra használják, harmadik fél részére nem adják át. A használati adatokat csak az egyedi adatközlőket (ha tudomásukra jut) nem visszafejthető módon, összegezve teszik közzé. Pl.: összes olvasói létszám, vagy felmérés eredményeképpen: a KIT-olvasók x%-a vezető beosztású. A használói felmérésekben a válaszadás anonim.
A szerkesztők a KIT-tel kapcsolatos visszajelzéseket egymás között megbeszélik, és visszajeleznek a levélírónak.
Adatkezelési tájékoztató

A KIT tulajdonosa:

GM Info Consulting Kft.
www.gmconsulting.hu


impresszum | szerkesztők | észrevétel e portálról