Szerző: Dömös Zsuzsanna

2023. január 11. 13:23

Bárkit képes utánozni a Microsoft szövegfelolvasó MI-je

Mindössze három másodperces minta alapján képes emberszerű beszédet generálni a redmondiak új megoldása, ráadásul a szintetizált hangfelvétel nemcsak a beszélő sajátos tónusait tartja meg, de az akusztikát is mímeli.

A Microsoft kutatói bejelentették a VALL-E szövegfelolvasó MI-modellt, ami egy mindössze három másodperces hangminta alapján képes valós személy hangját szimulálni. Így a beszélő jellegzetes tónusait megtartva bármilyen szöveges hanganyagot előállít, mintha adott személy beszéde lenne hallható. Készítői fejlett szövegfelolvasó- és szerkesztő alkalmazásként képzelik el használatát, akár olyan más generatív MI-modellekkel kombinálva, mint a szöveget generáló GPT-3.

A redmondi cég a VALL-E-ra neurális nyelvi modellként hivatkozik, ami a Meta által tavaly bejelentett EnCodec nevű tömörítési neurális hálózaton alapul. Más, a hullámformák manipulálásával dolgozó szövegfelolvasó eljárásokkal ellenben a Microsoft megoldása  audiokodek kódokat alkot a megadott szövegből és a minta akusztikus jeleiből.

microsoft_vall_e_kiemelt

Toxikus vezetők szivárványa

Az IT munkakörülményeket, a munkahelyi kultúrát alapjaiban határozzák meg a vezetők, főleg ha még toxikusak is.

Toxikus vezetők szivárványa Az IT munkakörülményeket, a munkahelyi kultúrát alapjaiban határozzák meg a vezetők, főleg ha még toxikusak is.

A VALL-E alapvetően kielemzi egy adott személy beszédének jellegzetességeit, az információkat az EnCodec-kel bontja különálló komponensekre, "akusztikus tokenekre", hogy létrehozza a végleges hullámformát. Amellett, hogy leköveti a beszélő hangszínét, a hangminta „akusztikus környezetét” is képes utánozni. Például, ha a mintát egy telefonhívásból vágták ki, a telefonhívás akusztikáját és frekvenciatulajdonságait is visszaadja.

A redmondi kutatók a Meta által szolgáltatott audiokönyvtár segítségével dolgoztak, ami több mint 60 ezer órányi angol nyelvű beszédet tartalmaz több mint 7000 személytől. Mivel ahhoz, hogy a VALL-E jó minőségű és élethű tartalmat hozzon létre, a hangmintának nagy egyezést kell mutatnia a kiképzéshez használt adatok valamelyikével, így a jövőben további adatokkal tervezik bővíteni az adatbázist.

A Microsoft a visszaélések miatt egyelőre nem teszi elérhetővé másoknak a tesztelést, sem a VALL-E kódját. Közleménye szerint a vállalat a jövőben saját, MI-vel kapcsolatos fejlesztésekhez kialakított irányelveit követi majd, illetve készül egy külön modell is annak meghatározására, hogy egy hangklipet a VALL-E segítségével hoztak-e létre. Jelenleg a projekt GitHub-oldalán lehet meghallgatni, hogyan muzsikál az algoritmus: egyelőre még nem tökéletes, és bizonyos klipek hallhatóan gépszerűek, de vannak valóban ijesztően valósághű eredmények is.

Nagyon széles az a skála, amin az állásinterjú visszajelzések tartalmi minősége mozog: túl rövid, túl hosszú, semmitmondó, értelmetlen vagy semmi. A friss heti kraftie hírlevélben ezt jártuk körül. Ha tetszett a cikk, iratkozz fel, és minden héten elküldjük emailben a legfrissebbet!

a címlapról