A generatív mesterséges intelligencia megjelenése akkora média figyelmet kapott, mely azelőtt talán csak az első sikeres önvezető autó prototípusok esetén volt tapasztalható. A mostani „AI-láz” azonban egy fontos további tulajdonsággal rendelkezik: Nem szükséges hozzá egy luxus-kategóriás autó, hogy a hétköznapokban is megtapasztalhassuk hatásait.

Hogyan jutottunk idáig? Miért más a mostani AI forradalom, mint az eddigiek? Mi vár még ránk 2024-ben és azután? Ezekre a kérdésekre keressük a választ az elmúlt évek technológiai fejlődésének szemlézésével.

A mesterséges intelligencia történetét sokan, sokféleképpen tárgyalják, vannak, akik még Kempelen Farkas sakkozó gépéig is visszamerészkednek az időben. Beszélhetnénk a különböző algoritmusokról, tudományos áttörésekről, azonban a mi történetünk talán Stuart Russell és Peter Norvig mesterséges intelligencia enciklopédiájáig nyúlik vissza (közülük Peter Norvig neve ismerős lehet, mint a Google kutatásáért és egy időben a keresőmotor kialakításáért felelős igazgató). A szerzők az „Artificial Intelligence: A Modern Approach” című könyvüket évtizedenként megújítják sorra véve a múlt és a jelen trendjeit, és a jövőbemutató technológiákat. Az egyes kiadások közötti eltérések így érdekes korképet festenek főleg, ha a „jövő mesterséges intelligenciájára” elhangzó elméletek és elvek összességére figyelünk fel. 2003-ban még csak a probléma felvetést olvashattuk. Az AI hatásaira, a gyorsuló fejlődés lehetséges veszélyire hívják fel a figyelmet. 2010-ben megjelent a „Friendly AI”, azaz a barátságos mesterséges intelligencia fogalma is, mely tervezéséből adódóan embereket segítően kell, hogy viselkedjen. 2021-ben pedig eljutunk a bizonyíthatóan előnyös (provably beneficial) AI fogalmáig. A szerzők itt kifejtik, hogy az ilyen mesterséges intelligencia létrehozása nehézkes, ugyanis itt már nem beszélhetünk előre meghatározott célokra betanított rendszerekről, hanem olyan modellekben kell gondolkodnunk, melyek képesek lehetnek az emberi preferenciát is figyelembe venni.
A preferencia pedig:
1. Nem konkretizált cél.
2. Komplex, emberi tudástól függ.
Ők akkor még nem is sejthették, hogy mindössze egy évvel később az OpenAI kutatói megoldják ezt a problémát, és 2022 végére a cég kiadja a ChatGPT első változatát.

Mitől több a ChatGPT, mint az elődök?

A ChatGPT a GPT-3 architektúrára épül, mely egy hatalmas (175 milliárd paraméteres) modell, összehasonlítás képpen, a Gyűrűk Ura trilógia HD rendezői változata kétszer is elférhetne a GPT-3 súlyai helyén és még mindig maradna valamennyi. Itt megjegyzendő, hogy az előző generáció, a GPT-2 egy milliárd alatti paraméterszámmal rendelkezett. A GPT-3 általános és átfogó tudással rendelkezik arról, hogy hogyan is kell szövegeket jellegükre helyesen folytatni, hiszen egyes becslések szerint akár az egész internet minőségibb szövegeinek tizedénél is többet láthatott. Emellett több száz specifikus tudásanyagot tartalmazó adatsort is átpasszíroztak rajta az OpenAI mérnökei, mely egy igen speciális képességgel ruházta fel a modellt. Képes lett a feladatok között általánosítani, így az átfogó ismeretek miatt akár olyan szövegalkotási feladatokat is meg tud oldani, amire soha nem tanították, legfeljebb néhány példát kap a megoldandó feladatokról bemenetként (ez a prompt engineering megszületésének pillanata is, ami, mint szakma még napjainkban is robbanását éli). Láthatjuk, hogy Norvig és Russell első akadályát már maga a 2020-ban kiadott GPT-3 is legyőzi, hiszen képes az emberi írott tudásanyagban elnavigálni, és ez alapján szövegeket folytatni, generálni.

Persze fontos megjegyezni, hogy a GPT-3 önmagában párbeszédre nem alkalmas, sőt még feladatokat végrehajtani sem képes. Klasszikusan rá kell vennünk arra, hogy helyesen működjön.

1. Egy egyszerű példa a ma már ritkábban használt (legacy) GPT-3 alapú "davinci-002" promptolásáról. A modell az instrukciókat nem érti, csupán folytatandó szövegnek tekinti őket és kiegészíti a felsorolást (fent). A feladatot szöveg kiegészítéssé kell átformázni (lent). Az instrukció követő és chat modellek, mint a ChatGPT is, megértik az emberi elvárást és alkalmazkodnak ahhoz az itt látható alapmodellekkel ellentétben.

Egy egyszerű példa a ma már ritkábban használt (legacy) GPT-3 alapú "davinci-002" promptolásáról. A modell az instrukciókat nem érti, csupán folytatandó szövegnek tekinti őket és kiegészíti a felsorolást (fent). A feladatot szöveg kiegészítéssé kell átformázni (lent). Az instrukció követő és chat modellek, mint a ChatGPT is, megértik az emberi elvárást és alkalmazkodnak ahhoz az itt látható alapmodellekkel ellentétben.

Ahogy a fenti példából is látható a GPT-3 esetében még át kell formáznunk a problémát egy tisztán szövegfolytatási feladattá, míg ezt egy ChatGPT esetében felesleges megtennünk.

A megoldás az instrukció követés és a párbeszéd képességek fejlesztésében keresendő. Az OpenAI kutatói ugyanis egy olyan preferencia alapú módszert (RLHF, avagy megerősítéses tanulás emberi visszacsatolással) dolgoztak ki, mely során a célok nem csupán a következő szó meghatározásában merülnek ki, hanem az elvárt válasz minőségének meghatározásában. Ehhez egy olyan értékelő modellt készítettek, mely önmaga is egy GPT-3 másolatként kezdte pályafutását (csak valamivel kisebb volt, visszatérve a Gyűrűk Ura epizódokhoz, ez csak egy HD film helyét veszi el). Ezt a modellt szöveg generátorból átképezték szöveg értékelőre. Ehhez több tucat emberi szöveg értékelő szakembert alkalmaztak, akik a modell különböző válaszait pontozták egy preferencia skálán 1-től 7-ig több tízezer feladat esetén. Az értékelő modell így kérés alapján tud válaszokat osztályozni, tehát értelmezi a bonyolult emberi preferenciákat úgy, hogy alapvető nyelvi, fogalmi tudással már rendelkezik.

Ezután nem volt más dolguk, mint a GPT-3 modellt olyan beszélgetési és instrukció követési feladatok elé állítani, amelyet az értékelő modell le tudott pontozni. A feladat a konkrét szövegfolytatás helyett azonban másképp hangzott: „Adj olyan választ, ami alapján a legjobb értékelést kapod majd!”. Ez természetesen a megerősítéses tanulásban ezelőtt sem volt ismeretlen, ahol gyakorta modellezték az egyes döntések várható kimenetelét (például egy önvezető jármű esetén) egy hasonló értékelő modellel, azonban itt fizikai egyenletek, mechanika, vagy költségek helyett az emberi preferencia modellezése került előtérbe.

2022 novemberétől a történetet talán már mindenki ismeri, hiszen a csapból is ez folyik. A ChatGPT megjelent, tarolt, munkahelyi transzformációt indított el, változást indukált az információ szerzésben és feldolgozásban. Ezek mellett pedig az emberiség talán most először (a gép által legyőzött sakk, go és StarCraft világbajnokokat nem számítva) találkozik egy a sajátjával összemérhető mesterséges intelligenciával. Felmerül a groteszk kérdés, amire talán még egyikünk sem mer őszintén válaszolni: ha a leveleimet az AI fogalmazza listából folyó szöveggé, az ügyfeleim odalán pedig ugyanez a rendszer alakítja listává az én terjengős, udvarias levelemet, akkor nem lett volna egyszerűbb csak a listát elküldeni?

És amíg mi azt latolgatjuk, hogy feladhatjuk-e az etikettet, mint emberségünk egyik védőbástyáját a technológia robog tovább. 2022 óta kiderült, hogy nem csak a nyelvet lehet kis „szavanként” előállítani, de a hang, a kép, az animáció, sőt a robot mozgás is követheti ezt a receptet, ha megfelelően daraboljuk. A legújabb nyelvi modellek már 300-800 milliárd paraméteresek és működésük közben döntik el, hogy ennek a hatalmas tudásanyagnak melyik részét vetik be. A nagyobb gyártók specializált futtató chipeket készítenek, amivel hamarosan a mobiltelefonok is futtatni tudnak majd egy alapszintű chat modellt. A generatív AI rendszerek elkezdtek eszközöket használni, adatbázisokba beleolvasni, sőt a „nem vagyok robot” tesztek megoldására emberi munkaerőt is felvettek. Programozók tömegei tapasztalják félelemmel vegyes áhítattal a copilotok és programozó ágensek által nyújtott villámgyors kódolási lehetőségeket, sőt egyesek már a kutatói munkák részleges, avagy teljes támogatásáról is suttognak.

Norvig és Russell kezdeti problémafelvetésére visszatérve pedig a Claude 3 (mely amúgy az első modell, aminél 100 feletti IQ-t mérnek, jelentsen ez bármit is egy intelligens program esetében) már olyan Constitutional AI (CAI) módszerrel tanult, mely az emberi preferencia osztályozó szakértők szükségét is minimalizálja. Ez a CAI tulajdonképpen egy szabályrendszeren, az „alkotmányon” alapul, mely az emberi preferenciákat, szabályokat, kívánalmakat testesíti meg. Ezek után az AI modell elkezd probléma felvetéseket, és arra adható válaszokat generálni, majd az emberi pontozás helyett egyszerűen értékeli önmagát az alkotmány előírásai alapján előtérbe helyezve a helyesnek ítélt válaszokat, és elnyomva az alkotmányt sértőeket.

A küszöb alatt tehát öntanító, emberivel összemérhető intelligenciájú, de mégis sérülékeny generatív AI modellek kúsznak be napról napra. Nem mindenhatók, nem veszik el mindenki munkáját, de egy újabb alap digitalizációs szintet jelentenek, mint ahogy a webes keresők, a mobiltelefonok, vagy az irodai szoftverek is jelentettek korábban. Hallucinálnak, hiányos a tudásuk, tévednek és néha hibásan érvelnek. Ezekre a problémákra folyamatosan fejlődő válaszokat ad a generatív AI integrációval foglalkozó közösség. A lehetőséget a valós, versenyelőnyt jelentő megoldástól olykor csak néhány hét technológiai fejlődés választja el egymástól, így az AI metódusok naprakész ismerete fontosabb, mint valaha. Ez a feladat hatalmas súlyt ró a szakma mélységeiben tevékenykedő kutatókra, mérnökökre, fejlesztőkre is, azonban az igazán komoly terhet a stratégiáért felelős vállalatvezetők viselik, akiknek most egy teljesen új, nehezen kiszámítható tényezővel kell számolniuk.

Az AI Bridge Hungary-nél blogunk célja, hogy hídként funkcionáljon a technológiai innováció és a vállalati stratégia között, segítve a vezetőket és szakértőket egyaránt abban, hogy megértsék és kiaknázzák az AI-ban rejlő lehetőségeket. Részletesebb, átfogó felmérés, tervezés, integráció esetén pedig multidiszciplináris szakértői csapatunk áll rendelkezésre, hogy a mesterséges intelligencia legújabb fejlesztéseit az Ön vállalatának specifikus igényeihez igazítva biztosítsunk technológiai előnyt a piaci versenyben.

Photo by Matheus Bertelli: https://www.pexels.com/photo/man-working-with-chatgpt-ai-system-16094048/

AI Bridge | MINDEN JOG FENNTARTVA |
ADATVÉDELMI TÁJÉKOZTATÓ
|
IMPRESSZUM