Hogy lesz a szövegből kép?

A legenda szerint egyszer egy híres festőművésznek egy gyűjtő odavitt egy festményt, hogy szignózza, mert aláírás nélkül kevesebbet ér, mire a művész azt mondta, ez nem én festettem, de jó és aláírta. Na erről lesz most itt szó…

De azelőtt jó lenne tudni, hogy mi is az a mesterséges intelligencia valójában. A legtöbben úgy gondolnak rá, mint matematikai algoritmusok vagy procedurális programok, de ez csak részben igaz, ugyanis a mesterséges intelligencia egy adatréteg amelyet ezek a programok építenek.

Nagyon leegyszerűsítve a következő a helyzet: fogunk pár (millió) sor kódot, amivel megetetünk pár (millió) adatot, amiről tudjuk, hogy milyen kimenetet várunk tőle. A programok pedig egy olyan adatbázist (neurális hálót) építenek, ami alapján a bemeneti értéknek meg tudják becsülni a kimenetek valószínűségét.

Gondolom ez most kissé ködös, úgyhogy legjobb lesz, ha nézünk egy példát: etessünk meg egy mesterséges intelligenciát pár millió festménnyel és mindegyikhez adjuk meg a festő nevét is. Ha ügyesen írtuk meg a programot ami létrehozza a neurális hálót, az MI-nk meg fogja tudni mondani a festményekről, hogy valószínűsíthetően ki festette, akkor is, ha még sosem került kapcsolatba az adott képpel. (Igen, pont úgy mint te. Vagyis többet tud, mint az adatbázisa).

Na ha ezzel megvolnánk, akkor lépjünk egyel tovább. Fogjunk egy másik algoritmust, ami képes ezen adatok alapján gyártani egy festményt a megfelelő művész stílusában. A neurális háló tartalmaz egy csomó olyan alapvető adatot, ami alapján nemcsak el lehet dönteni, hogy ki készítette a képet, hanem lehet készíteni is olyat, aminek a kimenete az adott művész lenne, vagyis – legalábbis a mi kis MI-nknek olyan mint egy Picasso vagy Dűrer.

Erre többféle módszer, algoritmus is van, de nekünk most elég annyi, hogy okos matematikusok addig törték a fejüket, amíg ki nem találtak egy viszonylag kevés erőőforrást igénylő módszert (latent diffusion), amivel a jelenlegi szövegből képet gyártó MI-k működnek.

Napraforgók van Gogh stílusában – Stable Diffusion

Fontos megjegyezni, hogy a kép generálásához nem a tanításhoz használt képek részleteit használja az MI, mert ez adat legtöbbször nem is áll rendelkezésre, csak a felépítéshez szükséges neurális hálózat.

Szerzői jogi kérdések

Felmerül a kérdés, hogy vajon ezeknek képek kinek is a szellemi termékei valójában?

Ha egyszerű analógiát nézünk, akkor azt mondhatjuk, hogy ha neked azt mondja valaki: fess 100 csendéletet vázában napraforgókkal, van Gogh stílusában, majd az egyiket a saját nevében nevezné egy művészeti vásáron mit gondolnál?

Ha hiszed, ha nem pont ugyanaz történik itt is. Az MI-nek mutatnak egy csomó képet amiből megtanulja, hogy néz ki egy váza, a napraforgó és mi különbözteti meg van Gogh-ot a többi festőtől majd rajzol egy képet. Pont mint te.

Természetesen a kurátornak is van szellemi terméke, de nem gondolnám, hogy ennél többet csinál az az ember, aki kiválogat párszáz MI által gyártott képből néhányat.

Ehhez képest az Egyesült Államokban két precedens értékű ítélet is született az utóbbi időben. Az egyik kimondja, hogy egy mesterséges intelligenciának nincsenek szerzői jogai, a másik pedig elismerte egy ember szerzői jogait egy mesterséges intelligencia által gyártott képre.

Szerzői jogi kérdések

Megosztás

Baráth Gábor

Ez is érdekelhet még...

Holnap is meglesznek a fotóid?

Jelszó kezelő alkalmazások

Okostelefonos fotós munkafolyamat