Tényleg beszél a számítógép?

2022. április 4. hétfő, 06:00
Az Infotér Konferencián jelentette be az OTP, hogy egy hatalmas, mesterséges intelligencia felhasználásával működő nyelvi feladatokra épített számítógépet rendelt meg. Ahhoz, hogy ennek a bejelentésnek a pontos jelentőségét felmérjük, leültünk beszélgetni Dr. Feldmann Ádámmal, a PTE Adattudományi és AI csoport vezetőjével, aki nem csak, hogy látott már nyelvi mesterséges intelligenciát, de tanította is már beszélni a gépet.

Twitter megosztás
Cikk nyomtatása

- Infotér: Mit vett az OTP?

- Feldmann Ádám: Én annyit tudok erről, amennyit a hivatalos kommunikációban láttam. Egy elég jól kapitalizált Sambanova nevű startuptól, az Egyesült Államokból idehoztak egy speciális hardvert. A neten fellelhető anyagaik szerint csináltak egy direkt, mesterséges intelligencia specifikus hardver architektúrát. Ezen egy GPT3 nevű nyelvmodellnek kell futnia, vagy egy ilyet kell létrehozni magyar nyelvre. Ezt még Palkovics miniszter úr jelentette be az Infotér Konferencián. Azóta semmilyen plusz információt nem lehet tudni, hogy ez milyen nyelvi modell is tulajdonképpen, mik a paraméterei és képességei.

- Infotér: És szakmai szemmel utánanézve, mit lehet tudni a startupról?

- Feldmann Ádám: Elolvastam a cég anyagait az interneten, de nem találtam túl sokat a marketingen túl. Viszont volt szó egy 100 milliárd paraméteres GPT-típusú nyelvmodellről. Ez egy szöveg előállítására, generálására képes nagy méretű előtanított nyelvmodell, ami különböző mesterséges intelligencia alapú nyelvi alkalmazások fejlesztésére is képessé teszi az OTP-t. Legyen szó akár házon belüli alkalmazásokról vagy akár for profit módon, házon kívüli szolgáltatásokról.

- Infotér: Én ebben a beszélgetésben szükségszerűen a Józsi bácsit, vagy a Marika nénit játszom, aki mondjuk találkozott Vandával már a hangos menüben. Úgyhogy csak feltenném még egyszer, ezt a kérdést egy kicsit máshogy. Tehát ez a GPD3, amiről beszélünk, ez micsoda? Pár éve az ismeretterjesztő sajtó nem erre mondta azt, hogy túl veszélyes kiadni?

- Feldmann Ádám: Igen, ez történt. Az egész azzal kezdődött, hogy a Google kutatói 2017-ben megjelentetettek egy Attention Is All You Need című cikket, ami megváltoztatta a nyelvtechnológiát. Előtte a mesterséges intelligencia új aranykora 2012-ben már elindult, amikor az Imagenet adatbázis képeit egy mélytanuló neurális hálózat jobban osztályozta, mint az előző megoldások. Ez egy nem várt méretű ugrás volt.

- Infotér: Mit váltott ki ez a cikk?

- Feldmann Ádám: Bemutattak egy Transformer nevű architektúrát, ami egy klasszikus encoder-decoder felépítést követett. Volt már előtte ebből több fajta, mint az RNN és LSTM alapú megoldások. Az a lényege, hogy fordításhoz lehet például használni ezt a fajta felépítést. Bemegy a szöveg angolul: sea otter és kijön franciául, hogy lutra de mer. A lényege az, hogy két egymást követő elemből áll: az encoder a forrásszöveget áttette egy un. reprezentációs térbe, utána ezt a dekóder más nyelvre vagy más szekvenciába transzformálta át.

A GPT, ami 2018-ban jelent meg egy nagy, előtanított transzformer modell, ami szöveget tud generálni és sokkal jobban működik, mint az előző architektúrával működő megoldások. Több dekóder réteg van egymásra helyezve, így jobban működött, mint a korábbi változatok.

Érdekes volt aztán, hogy a Microsofttól elment egy Jacob Devlin nevű kutató, és hat hónappal később, már Google színekben publikálta a BERT nevű új eszközt. Ez szintén egy transzformer modell, amely csak encoder rétegeket tartalmaz.

Az enkóderek nagyon jól tudnak reprezentációkat csinálni osztályozási és információ kinyerési feladatokhoz. A tanításukhoz azonban rengeteg szöveges adatot, 3-4 milliárd szavas szövegkorpuszokat feldolgozni. Ez olyan 15 millió gépelt oldalt jelent. A GPT modellek adatigényen ennél is nagyobb, az angol nyelvű szöveges korpusz, amivel a modell tanítható, majdnem 1 TB helyet foglal.

- Infotér: Próbáljunk keresni valami kapaszkodót, Wikipédiából ez mennyi lenne?

- Feldmann Ádám: A teljes Wikipédia az pár százaléka csupán egy ekkora szövegadatbázisnak. Jóval hatalmasabbról beszélünk. Próbáljuk onnan kezdeni, hogy mennyi lehet Magyarországon az összes digitalizált szakdolgozat? Nagyjából egy tizenpár milliárdos korpuszt lehetne belőle készíteni.

Ezeken a hatalmas adatbázisokon tanított nyelvi modellek bámulatosan teljesítettek az információ kinyerési feladatokban. A Google pikpakk beépítette a keresőjébe a BERT-et. A modell érzékeny a kontextusra, így például tudja, hogy a vár szó egy szövegkörnyezetben erődöt jelent, de egy másikban pedig egy cselekedetet jelöl.

- Infotér: Még mindig múlt időt használ, tehát nem értünk el a jelenhez. Mi következik?

- Feldmann Ádám: Mostanra a paraméter verseny indult el. Mert feltették, hogy attól függ a teljesítmény, hogy kinek van nagyobb paraméterszámú modellje. A paraméterek száma a feldolgozó elemektől és a rétegektől is függ. A BERT Large 340 millió paraméteres volt, aztán jött 2019-ben a GPT2, amit az OpenAI, egy Elon Musk- féle csapat fejlesztett, és ami egy másfél milliárd paraméteres, és csak dekóderekből álló eszköz, azaz szöveggenerálásra képes. A modell tulajdonképpen úgy működik, hogy megpróbálja kitalálni, hogy mi lehet a következő szó egy mondatban. Musk generált is körülötte némi felhajtást, hogy terroristák kezébe kerülhet és kárt okozhat, de igazság szerint tényleg tud olyan szintű szövegeket készíteni, ami olyan, mintha ember írta volna.

- Infotér: Valahogy ez mégis kikerült, hiába esküdözött mindenre Musk.

- Feldmann Ádám: A modellt közzétették, de nem hozták nyilvánosságra, hogy hogyan tanították. Ezzel a hozzáférhetősége csökkent. Mellette ugyanebben az évben a Microsoft is publikált egy új modellt és az Nvidia grafikuschip-gyártó is beszállt a versenybe. Végül pedig a Google T5 modellje, ami ugyanerre a transzformer architektúrára épült, az is megjelent.

Erre jött végül a GPT-3 2020 májusában. Semmiben sem különbözött a korábbi GPT-modellektől, bár a generálására használt kódot nem tették közzé. Nőtt azonban a paraméterek száma, több dekódertechnika került belé és így tovább. Ezt a mennyiségi változást azonban minőségi ugrás is követte.

- Infotér: Mit jelent egy ilyen esetben a minőségi ugrás, mivel tudnak többet?

- Feldmann Ádám: A nagy nyelvmodellek pár példa bemutatásából is tudnak tanulni. Azaz, ha a bemenetre beírjuk így folyó szöveggel, hogy fordítsd le angolból franciára, és mutatunk erre pár példát, akkor rövid idő után az angol szöveghez a modell már hozzáteszi a francia megfelelőjét. Ugyanígy tud szöveget is generálni egy bizonyos bemenetre a kért hosszúságban anélkül, hogy utána nézne az interneten. Vagy összefoglal egy szöveget olyan szinten, mintha egy általános iskolásnak magyarázná el a jelentését. De lehet kérni, hogy alsós vagy felsős legyen az a gyermek, és a két esetben máshogy fogalmaz. Nagyon sok olyan alkalmazási területe van, amit még nem tudunk jelenleg.

Arról nem is beszélve, hogy ezek a nagy méretű modellek a hardverek fejlesztésében is új eredményeket hoztak. Most egy olyan hardvert használok, amin lehet BERT Large modellt tanítani néhány óra alatt. Három éve még nem gondoltam volna, hogy ilyenhez hozzá fogok valaha férni, de most itt van a PTE szervertermében, és az NYTK-val közös HILANCO konzorciumban dedikáltan nyelvmodellek fejlesztésére használjuk.

Amikor 2020-ban a magyar BERT Large-ot tanítottuk, akkor Azure felhőben lévő számítógépeken dolgoztunk. Abban négy darab Nvidia Tesla V100-as processzor dolgozott. Pár évvel korábban ez még egy 64 processzoros feladat lett volna, de hála a szoftveres optimalizáló megoldásoknak, mint a Microsoft DeepSpeed megoldásai, a hardverigények nagyban csökkennek és az idő is rövidül. Ennek ellenére, még mindig rettenetesen nagy az erőforrásigénye egy ilyen MI tanításnak.

- Infotér: Mik most a csúcsok nyelvmodellek tekintetében?

- Feldmann Ádám: A kínaiak nagyon élre törtek paraméterszámban, az egyik modelljük a Wu-Dao 2.0 Ez billió - azaz tíz és tizenöt darab nulla - paraméter fölötti modell, amely nemcsak szövegeket, de képeket is képes feldolgozni.

A Google is előállt a LaMDA és MoM modelljeivel, illetve a Microsoft a Megatron-LM egy 530 milliárd paraméteres változatát teszteli. Ez az a modell, ahol a legtöbb technikai részletet is megosztották a fejlesztők, illetve a modell teljesítményének mutatószámai is elérhetőek. A nyelvtechnológia most nagyon fejlődik, a GPT3 pedig jelenleg a legstabilabb, leghasználhatóbb modell több NLP feladatra.

- Infotér: Mi kell ahhoz, hogy egy hasonlóan erős magyar nyelvmodellt építsünk?

- Feldmann Ádám: Magyarul nincs elég nagy adatbázis, úgyhogy egy transzfertanulás nevű jelenséget kell felhasználnunk. Ez azt jelenti, hogy amit az egyik nyelven megtanul a modell, azt többé-kevésbé át tudja vinni egy másik nyelvre. A teljesítmény csökken, de egy segédnyelv nagyon sokat segít.

Nekünk most egy kb. 25 milliárd szavas magyar adatbázisunk van, de az angol nyelven fejlesztők például dolgozhatnak egy 410 milliárd szavas szöveges adatbázisból. Nagyságrendi a különbség.  Az OpenAI kutatói megjelentettek egy nagyon fontos cikket 2020-ban, ami arról szólt, hogy mi az összefüggés, a nagy nyelvmodelleknek a mérete, tehát a paraméter száma, a hozzáadott tanító adat mennyisége, és a számítási kapacitás között. Úgy találták, hogy a tanító adat mennyisége és a kapacitás között egyszerű hatványtörvény szerinti összefüggések vannak. Ha például nagyobb modellt szeretnék csinálni nagyobb paraméterszámmal a teljesítménynövelés érdekében, akkor a nyolcszoros méretnöveléshez a bemeneti adatok mennyiségét ötszörösére kell növelni. 

- Infotér: Párat említettél már, de mik ezek a feladatok?

- Feldmann Ádám: Vannak klasszikus nyelvtechnológiai feladatok, mint a névelem keresés, amikor a szövegből vezeték- és keresztneveket válogatunk ki. Ehhez tudni kell, hogy a Kossuth Lajos az egy személynév, de a Kossuth Lajos Általános Iskolában már egy intézménynév része, és azt nem kell kiválasztani. Ennek a megoldásához kontextuális információ kell, nem elég szótárazni. Erre nagyon jók ezek a modellek. Aztán ilyen a szövegek hangulati osztályozása. Vagy dokumentumok besorolása, hogy egy gépelt szöveg van-e bennük vagy egy kitöltött formanyomtatvány. Ezekhez a feladatokhoz nem kell GPT-3, az ilyen feladatokra azonban külön-külön kellett tanítani korábban a modelleket, de ma már nem ez a helyzet. Ha például jogi szövegeket akarunk feldolgoztatni egy BERT-tel, akkor mutatni kell neki pár ezer példát, utána viszont emberhez hasonló teljesítményt képes nyújtani. Nem éri el az emberi szintet, de az ahhoz közelít. A GPT-3 viszont nemcsak ezekben jó. Kinyitja az utat a kreatív szöveggeneráláshoz és feladatokhoz. Jó támpont a lehetőségek megismeréséhez, ha az OpenAI honlapján található playground segítségével kipróbáljuk azt rengeteg lehetséges feladatot, amit a GPT modellekkel meg lehet oldani.

- Infotér: Ez azt jelenti, hogy bármelyik cég csinálhat magának egészen jó nyelvi intelligenciát? Ha igen, ez miért nem érződik?

- Feldmann Ádám: Drága felépíteni ehhez az enterprise környezetet. Más dolog Jupyter notebookokat futtatni kísérleti jelleggel és megint más skálázható szolgáltatást építeni piaci környezetben. Kellenek fejlesztők, felhő szakemberek, kell olyan, aki a modellt ismeri, kell olyan, aki a deploymenthez, tehát az üzembe helyezéshez ért és a modellt folyamatosan aktualizálni is kell, ami klasszikusan egy CI/CD feladat. Nagy kérdés, hogy a szolgáltatás, ami keletkezik, megéri-e négy-öt magasan képzett, MI-modellt tanító és üzemeltető szakember pár éves bérét. A válasz az, hogy sok esetben nem. A GPT-3 ereje igazából itt mutatkozik meg. Elég egy modell sok feladathoz, ami ugyan nagyobb, mint a többi, de cserébe egy pipeline-t kell fenntartani és nem sokat.

- Infotér: A modell futtatását hogyan képzeljük el? Minden tech bemutatón elmondják, hogy a telefonban is számtalan MI-alapú alkalmazás fut, szóval oda csak nem kell paksnyi hardver.

- Feldmann Ádám: A GPT-3 legnagyobb változata a DaVinci 175 milliárd paraméteres és így foglal el 350 gigabájtot egy GPU eszköz VRAM-jában. Ez a modell nem fér el egy GPU-ban, sőt, sokszor egy számítási csomóban sem. A jelenleg legnagyobb elérhető VRAM az NVIDIA A100-as processzoraiban van, darabonként 80 GB. Szóval a fentebb emlegetett A100-asból öt darabra van szükség és az egy többmillió forintos speciális videokártya. Ez csak a modell üzemben tartásához szükséges.  Felhőszolgáltatóknál körülnézve egy ilyen méretű modell üzemben tartása is havi soktízezer eurós költség lehet.

- Infotér: Mindig abban bíztam, hogy ha a számítógépek jók is lehetnek szöveggenerálásban a végén kis áthallásos poénokban még kiröhöghetem őket. Mennyire jók ezek a modellek iróniában, szarkazmusban?

Egyre jobbak, de nem intelligensek. Leegyszerűsítve, ezek a modellek a nyelv egyfajta tömörített változatai. Úgy készülnek, hogy irdatlan mennyiségű, például egy terabájtnyi tömörítetlen szöveganyagot átengedünk rajtuk. Ezek lehetnek bármilyen dokumentumok: teljesítési igazolás, számla, regény, bevásárlólista, HTML-kód, amit az ember csak el tud képzelni. Utána ezeket széles spektrumon tudja generálni. Egy olyan eszközről beszélünk, ami nagyon széles skálán alkalmazható. A klasszikus NLP feladatok, mint a fentebb említett névelemkeresés és osztályozás, csak nagyon kis szeletek a képességhalmazban. Tud számítógépes kódot készíteni, adatbázis lekérdezést írni, verset faragni, cikkeket írni, komplex analógiákat létrehozni egyszerű szöveges utasítások nyomán.

- Infotér: Hol a csapda, ez eddig jól hangzik?

- Feldmann Ádám: Ezek a GPT3-as modellek generálhatnak sértő, inkorrekt szövegeket is, melyeket úgy ahogy, lehet szűrni, de komoly problémát jelentett ezeknél a modelleknél.  A tanításra használt óriási adatbázisokat nem lehet szűrni. A tanítóadatok megválogatása számtalan, gyakran filozófiai problémát is felvet. Az azonban biztos, hogy ezek az eszközök hozott anyagból dolgoznak, amit az ember egyszer leírt, azt használják fel.  Én személy szerint úgy kerülöm el a toxikus szövegeket, hogy az utasításokat megpróbálom összetett módon megfogalmazni és igyekszem udvariasan fogalmazni. Ezzel a modell eleve olyan szövegkörnyezetből fog a válaszhoz válogatni, ahol inkább az udvarias párbeszédek találhatóak.

- Infotér: Lehet egyszer megoldja a kedvenc problémámat. Vagy 15 éve olvastam egy novellát, aminek a narrátora egy fiatalember volt, aki nyárra egy kenguruvadász mellé szegődött. A hangulatára emlékszem, a sztorira nem nagyon.

- Feldmann Ádám: Lehet. Vagy az is lehet, hogy egy másik modell generál Önnek egy hasonlót.