Hogy lesz a szövegből kép?

Az utóbbi időben elég felkapott lett a Mesterséges Intelligencia által gyártott képek ügye és mivel rengeteg félreértést látok a kérdésben, ebben a bejegyzésben megpróbálom kicsit elmagyarázni a dolog alapjait.

A legenda szerint egyszer egy híres festőművésznek egy gyűjtő odavitt egy festményt, hogy szignózza, mert aláírás nélkül kevesebbet ér, mire a művész azt mondta, ez nem én festettem, de jó és aláírta. Na erről lesz most itt szó…

De azelőtt jó lenne tudni, hogy mi is az a mesterséges intelligencia valójában. A legtöbben úgy gondolnak rá, mint matematikai algoritmusok vagy procedurális programok, de ez csak részben igaz, ugyanis a mesterséges intelligencia egy adatréteg amelyet ezek a programok építenek.

Nagyon leegyszerűsítve a következő a helyzet: fogunk pár (millió) sor kódot, amivel megetetünk pár (millió) adatot, amiről tudjuk, hogy milyen kimenetet várunk tőle. A programok pedig egy olyan adatbázist (neurális hálót) építenek, ami alapján a bemeneti értéknek meg tudják becsülni a kimenetek valószínűségét.

Gondolom ez most kissé ködös, úgyhogy legjobb lesz, ha nézünk egy példát: etessünk meg egy mesterséges intelligenciát pár millió festménnyel és mindegyikhez adjuk meg a festő nevét is. Ha ügyesen írtuk meg a programot ami létrehozza a neurális hálót, az MI-nk meg fogja tudni mondani a festményekről, hogy valószínűsíthetően ki festette, akkor is, ha még sosem került kapcsolatba az adott képpel. (Igen, pont úgy mint te. Vagyis többet tud, mint az adatbázisa).

Na ha ezzel megvolnánk, akkor lépjünk egyel tovább. Fogjunk egy másik algoritmust, ami képes ezen adatok alapján gyártani egy festményt a megfelelő művész stílusában. A neurális háló tartalmaz egy csomó olyan alapvető adatot, ami alapján nemcsak el lehet dönteni, hogy ki készítette a képet, hanem lehet készíteni is olyat, aminek a kimenete az adott művész lenne, vagyis – legalábbis a mi kis MI-nknek olyan mint egy Picasso vagy Dűrer.

Erre többféle módszer, algoritmus is van, de nekünk most elég annyi, hogy okos matematikusok addig törték a fejüket, amíg ki nem találtak egy viszonylag kevés erőőforrást igénylő módszert (latent diffusion), amivel a jelenlegi szövegből képet gyártó MI-k működnek.

Napraforgók van Gogh stílusában – Stable Diffusion

Fontos megjegyezni, hogy a kép generálásához nem a tanításhoz használt képek részleteit használja az MI, mert ez adat legtöbbször nem is áll rendelkezésre, csak a felépítéshez szükséges neurális hálózat.

Szerzői jogi kérdések

Felmerül a kérdés, hogy vajon ezeknek képek kinek is a szellemi termékei valójában?

Ha egyszerű analógiát nézünk, akkor azt mondhatjuk, hogy ha neked azt mondja valaki: fess 100 csendéletet vázában napraforgókkal, van Gogh stílusában, majd az egyiket a saját nevében nevezné egy művészeti vásáron mit gondolnál?

Ha hiszed, ha nem pont ugyanaz történik itt is. Az MI-nek mutatnak egy csomó képet amiből megtanulja, hogy néz ki egy váza, a napraforgó és mi különbözteti meg van Gogh-ot a többi festőtől majd rajzol egy képet. Pont mint te.

Természetesen a kurátornak is van szellemi terméke, de nem gondolnám, hogy ennél többet csinál az az ember, aki kiválogat párszáz MI által gyártott képből néhányat.

Ehhez képest az Egyesült Államokban két precedens értékű ítélet is született az utóbbi időben. Az egyik kimondja, hogy egy mesterséges intelligenciának nincsenek szerzői jogai, a másik pedig elismerte egy ember szerzői jogait egy mesterséges intelligencia által gyártott képre.

Jellemző a helyzetre, hogy magát a képregényt nem lehet megnézni, mert a nagyobb Stockphoto oldalakra, pont ezek miatt a szerzői jogi dolgok miatt nem lehet feltölteni MI által készített képeket.

Baráth Gábor
Baráth Gábor

Fotós, szakíró és fordító.

Szerzője többek között az Adobe Photoshop Lightroom, a GIMP könyv és a Furmányos fotós könyv, c. könyveknek, fordítója a következő Scott Kelby műveknek: Photoshop digitális fotósoknak - Új verzió,
Világítsd be! Fotózd le! Retusáld!,
A digitális fotós könyv 5.,
A digitális fotós könyv - Best of
és a
Vakuskönyv fotósoknak.

Articles: 1383