A neurális hálózatok el tudják képzelni a nyulat ölelgető Vlagyimir Putyint és Picasso Gyurcsány-portréját
2022. június 20. 14:58
Létező képek milliárdjaiból tanul, és ebből alkot szürreális látomásokat a bárki számára elérhető DALL·E Mini szoftver. Csak idő kérdése, hogy az így előállított képek élethűbbé váljanak, de a társadalomban meglévő sztereotípiákat máris pontosan visszatükrözik.
Darth Vader találkozik Pinguval.
Godzilla kirabol egy McDonald’s-ot.
Cthulhu a Szezám utcában.
Freddie Mercury rament eszik egy mosógépben.
Ilyen bizarr, (rém)álomszerű képek lepik el újabban a közösségi oldalakat a Salvador Dalí szürrealista festőről és a Disney robotjáról elnevezett DALL·E Mini nevű szoftvernek köszönhetően, ami látványosan demonstrálja, hogy mire képesek a mesterséges neurális hálózatok. Ezek a rendszerek az idegrendszer működését modellezve, a gépi tanulás segítségével oldanak meg feladatokat: hatalmas mennyiségű betáplált adatból képesek összefüggéseket felismerni és új eredményeket alkotni.
Ezt a DALL·E Mini esetében úgy kell elképzelni, hogy a rendszerrel milliónyi vagy milliárdnyi, jellemzően az internetről összegyűjtött képet ismertetnek meg, amelyekhez rövid szöveges leírások is társulnak. A rendszer felismeri, hogy a hasonló leírásokhoz tartozó képeken milyen jellegzetes mintázatok vannak, így képessé válik arra, hogy a rendelkezésre álló mintákból új képeket alkosson a felhasználó által bevitt szöveg alapján.
Azaz a DALL·E Mininek van mintája arról, hogy hogyan néz ki Donald Trump, arról is, hogy hogyan néz ki az ölelés, és arról is, hogy milyen egy nyúl, így össze tudja rakni, ha azt kérjük tőle, hogy mutassa meg Donald Trumpot, amint megölel egy nyulat.
Az persze látszik, hogy a képalkotásnak ez a módja most még inkább szórakoztató, mint hasznos vagy ijesztő: ha egy olyan lehetetlen helyzetet akarunk vele ábrázolni, mint hogy Vlagyimir Putyin Big Mac-et rendel egy McDonald’s-ban, a kapott eredmény nyilvánvalóan nem fog senkit megtéveszteni. Azt viszont látjuk, hogy a rendszer képes a gyorsétteremre emlékeztető környezetet alkotni és abban elhelyezni az orosz elnököt egy hamburgerrel.
Az pedig csak idő kérdése, hogy az így előállított képek élethűbbé váljanak. Van, ahol már jelentős eredményt értek el a gépi tanulással: épp a napokban írtuk meg, hogy szabadságra küldték a Google egyik mérnökét, aki azzal állt elő, hogy szerinte öntudatra ébredt a cég csevegőrobotja. A vállalat szerint azonban nem erről van szó, hanem pusztán arról, hogy a hatalmas mennyiségű szövegmintából a csevegőrobot rendkívül meggyőzően képes modellezni az emberi társalgást.
Ehhez hasonlóan a DALL·E Miniről a Guardian azt írja: a szoftver nem mesterséges intelligencia, az algoritmus nem „érti”, hogy mit jelentenek a beírt szavak, csak megpróbál valamit összerakni annak alapján, amit korábban megmutattak neki. De ha például azt írjuk be, hogy a Nagy Madár felszólal a magyar parlamentben, látszik, hogy a rendszer nem egy fényképet illeszt be a háttérbe a Tisztelt Házról, hanem a vele megismertetett minták alapján leképezi, hogy hogyan is néz ki az ülésterem.
A DALL·E Mini alkotói külön felhívják a figyelmet arra, hogy a rendszer által alkotott képek bizonyos esetekben a társadalomban meglévő sztereotípiákat tükrözhetnek amiatt, hogy az interneten elérhető adattömegre támaszkodtak. Sok évvel ezelőtt a Microsoft igazi PR-katasztrófába hajszolta magát, amikor nyilvánossá tette chatrobotját: a tizenéves lányként beszélgető Tay ugyanis a vele kommunikálók stílusát tanulta meg, így egyetlen nap alatt szexőrült nácivá vált. Végül le is kellett kapcsolni. Kínában pedig azért állítottak le chatrobotokat, mert nemmel feleltek arra a kérdésre, hogy szeretik-e a Kommunista Pártot, és arról beszéltek, hogy az az álmuk, hogy Amerikába mehessenek. A DALL·E Mini esetében a fejlesztők szerint a kisebbségekhez tartozók sztereotip ábrázolása merülhet fel problémaként, de ennek feltérképezése még folyamatban van.
Más korlátai is vannak a rendszernek: gyakran jelez túlterheltséget, ilyenkor sokszor kattintanunk kell a képek elkészítéséhez, és nincs is mindenről mintája a rendszernek, így ha például azt írjuk be, hogy szeretnénk látni Azahriah-t egy mobilvécé mögött egy fesztiválon, akkor csak kihalt toi-toi-okat kapunk eredményül. Így inkább a Sütiszörnyet próbáltuk meg elhelyezni a jelenetben.
A DALL·E Mini egyébként nemcsak élőlények, tárgyak és helyszínek ábrázolásában jártas, de nagyjából a művészeti stílusokat is ismeri – szerinte ilyen lenne Gyurcsány Ferenc Picasso festményén.
És így nézne ki Orbán Viktor, ha Van Goghnak állt volna modellt.