Synteettisistä kuvista, tekoälystä ja kuvataiteesta

Mitä synteettisellä kuvalla tarkoitetaan tekoälyn ja neuroverkkojen yhteydessä? Tekoälyn avulla toteutettu kuva on synteesi kuvista, joita on käytetty neuroverkon koulutukseen.

Tässä vaiheessa lukijalle pari huomiota: tässä tekstissä tekoälyllä (1) tarkoitetaan heikkoa tekoälyä, joka kykenee suorittamaan vain ennaltamääritettyjä tehtäviä. Vahvalla tekoälyllä tarkoitetaan tiedostavaa, ihmisen kaltaista älykkyyttä. Neuroverkko tarkoittaa nimensä mukaisesti neuroneista eli tietojenkäsittely-yksiköistä koostuvaa laskennallista verkkoa, jota ohjelmoidaan esimerkiksi tilastotieteeseen perustuvilla metodeilla. Neuroverkon ideana on yhdistää ihmisaivojen toimintamallia ja matemaattista logiikkaa.

Niin kutsutut neuroverkon koulutuskuvat voivat olla mitä tahansa kuvia, esimerkiksi muotokuvamaalauksia, kuvia ihmisistä, taloista, maisemakuvia, eläimiä. Koulutuskuvien avulla neuroverkko koulutetaan tuottamaan uusia kuvia, jotka muistuttavat koulutuksen kuvamateriaalia, mutta ovat synteettisesti toteutettuja. Tästä prosessista käytetään termiä koneoppiminen (engl. machine learning). Jos koulutusmateriaalina käytetään kuvia ihmisistä, syntyy kuvia ihmisistä, joita ei ole oikeasti olemassa (2).

Asian hahmottamiseksi voi myös etsiä analogiaa siitä, kuinka syntetisaattori toimii ja miten sillä tuotetaan synteesin kautta erilaisia elektronisia ääniä, joista osa muistuttaa ns. oikeita soittimia. Digitaalisten syntetisaattoreiden toiminta perustui lyhyisiin ääninäytteisiin oikeista soittimista ja näitä ääninäytteitä oli mahdollista miksata yhdeksi uudeksi soitinääneksi. Samalla on hyvä muistaa, kuinka elektronisen musiikkiin suhtauduttiin aikoinaan. Konservatiivissa musiikkipiireissä sitä ei pidetty aina oikeana musiikkina, koska konemuusikolle riitti nappien painaminen.

Lähemmäksi valtavirtaa synteettinen kuva ja tekoälyä hyödyntävä kuvataide tulivat syksyllä 2018 kun taidehuutokauppakamari Christie’s myi Obvious-ryhmän tekemän muotokuvan. Maailman medioissa (3, 4) kirjoitettiin pintapuolisesti ”tekoälyn tekemästä muotokuvasta” ja ”AI:sta taiteilijana”. Useammissa artikkeleissa pohdittiin tekoälytaiteen mahdollisuuksia jopa niin pitkälle, että kysyttiin, voisiko se olla varteenotettava taiteilijana, ikään kuin tekoälyllä olisi olemassa jokin oma uniikki taiteilijaidentiteettinsä.

Tekoälyn ja taiteen välistä suhdetta pohtiessa olisi hedelmällisempää miettiä tekoälyn tarjoamia mahdollisuuksia kuin sitä, kykeneekö tekoäly itsenäisesti tuottamaan taidetta tai onko tekoälytaide taidetta laisinkaan. Digitaalisessa arjessamme rajapyykit ovat jo niin hämärtyneet, ettemme edes tiedosta tekoälyn nykyisiä vaikutuksia esimerkiksi kuvataiteen luovissa prosesseissa. Sosiaalisen median älykkäiden algoritmien ohjaamien kuvavirtojen ehdottamat kuvat pohjautuvat käyttäjän tykkäyksiin ja muuhun reagointiin. Facebookin on väitetty tallentavan kaiken käyttäjätiedon hiiriosoittimen liikkeistä lähtien, ja tätä tietoa hyödynnetään myös koneoppimisen prosesseissa.

Tekoälytaiteeseen liittyy romanttisia ja myös paljon populaarikulttuurista tuttuja, useimmiten dystooppisia odotuksia. Ruohonleikkaaja-, Matrix– tai Terminator-elokuvissa luodaan myyttejä, joissa suhde tekoälyyn ja myös virtuaalitodellisuuteen on riistäytynyt täysin käsistä. Useimmiten se kuitenkin on lähinnä aiemmin tehdyn taiteen osittaista imitointia tai uudelleen generoinnin kaltaista kapeaa älykkyyttä sen sijaan, että tekoälyllä luotaisiin itsenäisesti jotain täysin uutta tai että tekoäly subjektiivisesti taiteilijan roolissa kykenisi pohtimaan sisällöllisiä kysymyksiä yhdistettyinä esteettiseen ilmaisuun. Asiayhteyden ymmärtämisen, kielen ja päättelyn parissa tekoälyllä on vielä paljon haasteita edessään (5), vaikka toki läpimurtojakin on parhaillaan tapahtumassa etenkin tekstin tuottamisen osalta (6).

Jos koneälyllä ei ole omaa kehollista tuntemusta ja tietoa, muistin historiaa ja esteettisen mielihyvän kokemuksia, kuinka se voi suhteuttaa yksittäisen kuvan taidehistorian tai kulttuurihistorian kaanoniin? Toki taidehistoriaa voi opettaa koneelle, jolloin koneen muisti on enemmänkin kollektiivista, mutta kykeneekö se soveltamaan moniulotteisia yhteyksiä historian ja nykyhetken välillä? Voi myös kysyä, tarvitseeko tekoäly enemmän (materiaalina) taidetta kuin taidemaailma tekoälyllä toteutettua taidetta (7).

Voiko luovuutta olla olemassa ilman kehollista tuntemusta ja inhimillistä älykkyyttä? Voiko tekoälyltä edes odottaa luovuutta ilman kehollisen älyn läsnäoloa?

Ian Goodmanin johtaman työryhmän vuonna 2014 julkaisema GAN-tutkimus (8, 9) oli käänteentekevä synteettisen kuvan kannalta. GAN:in koneoppimisprosessissa kaksi neuroverkkoa vertailee syntyneitä kuvia ja tekoäly yrittää tämän perusteella päätellä, kuinka onnistuneita kuvat ovat aitoihin kuviin verrattuna. Tämän prosessin pohjalta neuroverkko oppii tuottamaan aidompia kuvia koulutusmateriaalin pohjalta. Koulutuksen pituus (tunteina, päivinä) ja koulutusmateriaalin laajuus vaikuttavat oppimisen laatuun. Kuvamateriaalin osalta puhutaan tuhansista koulutuskuvista. Tällaisia kuva-arkistoja esimerkiksi Googlella on valmiiksi hallussaan. Internet ja erilaiset media-arkistot ovat täynnä opetusmateriaalia neuroverkoille, on kyse sitten videoista, kuvista, äänestä, tekstistä tai jostakin muusta.

GAN-tutkimuksen julkaisun jälkeen esimerkiksi verkkopalvelu Githubiin alkoi ilmestyä lukuisia Goodmanin työryhmän tutkimukseen pohjautuvia avoimen lähdekoodin GAN-variaatioita ja johdanteita esimerkiksi käyttäjien istuttaessa omiin valokuviinsa Van Goghin maalauksien tyyliä. Kun alan tutkijat saavat tehtyä merkittävän edistysaskeleen GAN:in parissa, siitä ilmestyy pienellä viiveellä sosiaaliseen mediaan demo. Vähän pidemmällä viiveellä samoja trikkejä on tullut älypuhelimiin, esimerkiksi face swap -applikaation muodossa. Tässä piilee myös tietynlaisen efektitaiteen riski.

Synteettisen kuvan estetiikkaan kytkeytyy uutuudenviehätys. Olemme jonkin uuden äärellä, jonka kaikkea potentiaalia ei olla vielä kyetty edes kuvittelemaan. GAN-tekniikalla on mahdollista luontevasti liukua esittävän ja ei-esittävän kuvan välillä. Tästäkin syystä se on kiehtovaa yleisölle ja edustaa jotain ennennäkemätöntä: uusfreudilaisia uninäkymiä sekä surrealistisia objektien, maisemien ja hahmojen sulautumisia. Samoista syistä sen parissa tapahtuu myös nopeita saturaatiopisteen saavuttamisia ja suoranaista kitschiä, esimerkkinä vaikkapa Googlen tutkijaryhmän kehittämä Deep Dream -ohjelma (10), joka tuli ja meni hypen saattelemana.

Ajatus synteettisistä, laskennallisesti tuotetuista kuvista on ollut olemassa jo kauan ennen nykyisiä neuroverkkoihin perustuvia kuvia. Filosofi Vilem Flusser esitti teksteissään ajatuksen synteettisestä, numeraalisesti tuotetusta kuvasta 1990-luvulla (11). Flusser viittaa numeraalisen datan muuntamiseen kuvalliseen muotoon. Se vastaa käytännössä hyvin pitkälle toimintatapaa, jolla GAN-neuroverkotkin toimivat.

Synteettisesti tuotetuilla kuvilla, koneoppimisella ja neuroverkoilla on laajempia yhteiskunnallisia vaikutuksia kuin vain niiden potentiaali taiteen visuaalisina työkaluina. Valevideot (12) tulevat olemaan arkipäivää lähitulevaisuudessa, samoin koneoppimista hyödyntävän puhesynteesin tuottamat valeäänitallenteet sekä uskottavammat, tekoälyn laatimat valeuutiset (6). Perinteisen ja sosiaalisen median uutisvirran seuraajan on entistä vaikeampaa erottaa, mikä on totta ja mikä on synteettistä mediavirtaa, valeuutisia. Tässä mediataiteilijoilla on tilaisuutensa edistää yleisön medialukutaitoa taiteen keinoin.

Kuinka neuroverkkokuvia voi tehdä itse? Yksinkertainen tapa kokeilla synteettisten kuvien tuottamista on käyttää verkkoselaimella toimivaa Ganbreeder-applikaatiota (13). Siinä voi miksata keskenään Googlen valmiiksi kouluttaman BigGAN-neuroverkon kuvakategorioita. BigGAN tarkoittaa laskennallisesti vaativampaa ja samalla resoluutioltaan tarkempaa neuroverkkoa. Koulutetut neuroverkot on luokiteltu kategorioihin koulutuskuvien mukaisesti. Luokittelusta löytyy erilaisia kotieläimiä, kasveja, maisemia, rakennuksia, laitteita ja niin edelleen. Ganbreeder-applikaatiota voi kokeilla, vaikka ei ymmärtäisi neuroverkoista mitään sen syvällisemmin.

Neuroverkkokuvissa on ehkä kiehtovinta niiden suhde materiaalisuuteen. On kiinnostavaa yrittää hahmottaa, mitä materiaalia tai materiaalien yhdistelmiä kuvien muodot, objektit ja hahmot ovat. Muotojen synteesit ja kudelmat ovat hyvin erikoisia. Tästä avautuu myös ideoita materiaalisuuden ja muotokielen soveltamiseen perinteisemmän kuvataiteen visuaalisessa ilmaisussa. Tämä prosessi on kiehtova kaksisuuntaisena.

Neuroverkkokuvien estetiikkaa pohtiessa on syytä ymmärtää, että tekoäly tutkii lähinnä pikseleitä ja pikselimuodostelmien yhteneväisyyksiä. Se ei siis ymmärrä asiayhteyksiä, ellei koulutuskuvia ole ennakkoon luokiteltu ja nimetty. Asiayhteyden ymmärtämättömyys on neuroverkon heikkous, mutta samalla myös sen kiinnostavuus verrattuna ihmistaiteilijaan.

Mitä informaatiota ja lukutapoja valmis kuva sitten tarjoaa katsojalleen? Jos ajatellaan esimerkiksi Ganbreederilla tuotettuja kuvia, toteutunut kuva voi olla yli kymmenen eri kuvakategorian synteesi, jossa kategorioilla ei äkkiseltään ole mitään tekemistä keskenään. Äkkiseltään se voi näyttäytyä lähinnä kummalliselta unenomaiselta kuvalta, joka liikkuu reaalisen ja fantasian välimaastossa. Kun kuvia alkaa tutkia tarkemmin, oppii niissä pian erottamaan tiettyjä lainalaisuuksia ja toistuvuuksia.

GAN-menetelmällä tuotettua kuvaa voisi ajatella synteettisenä kuva-arkistokollaasina. Täten sillä on vahva suhde valokuvaan, mutta enemmän arkistoihin kuin itse valokuvataiteeseen. Sosiaalisessa mediassa nähdyt latentin tilan (14) videot ovat ehkä joillekin tuttuja. Niissä voi nähdä musiikkivideomaista estetiikkaa. GAN-kuvissa on paljon maalauksellisia piirteitä. On tuskin sattumaa, että neuroverkkoja usein koulutetaan vanhoilla muotokuvamaalauksilla. Paljon löytyy tietenkin viittauksia myös taidehistoriaan, kuten esimerkiksi Helena Sarinin hienovaraisista teoksista (15). Vertauskohtaa voi hakea myös Wim Wendersin Maailman ääriin -elokuvasta, jossa ihmiset addiktoituivat omien uniensa katseluun unitallentimella. Kytköksiä voi hakea myös ilman optiikkaa toteutetun laskennallisen valokuvan taidehistoriasta.

Lienee vain ajan kysymys, milloin esimerkiksi taidemaalarit alkavat käyttää synteettisiä kuvateknologioita teosideoiden luonnosteluun. Jo nyt olisi täysin mahdollista käyttää GAN-teknologiaa tuottamaan uusia luonnoskuvia synteeseinä vanhoista teoskuvista. Kuvaideoiden tuottaminen tekoälyn avulla voi avata horisontteja visuaalisessa ilmaisussa.

Yksi Pandoran lipas avautunee, kun neuroverkkoja voi kouluttaa yksinkertaisimmilla menetelmillä, jotka ovat Ganbreederin tapaan helppokäyttöisiä eivätkä edellytä kalliin teknologian hankkimista. Tällöin taiteilijat voisivat hyödyntää tehokkaammin erilaisia kuva-arkistoja ja myös tuottaa uusia kuvia nimenomaan neuroverkon koulutusta ajatellen. Tässä feedbackin kaltaisessa prosessissa olisi myös potentiaalia lähestyä tietynlaista teknologista ”singulariteettia”, kun neuroverkko syöttää samantien itselleen takaisin tuottamiaan kuvia. Ehkä prosessin päässä odottaisi loppupisteenä musta neliö tai pelkkää kohinaa, neuroverkon romahdus.

Tämän uusia horisontteja avaavan visuaalisen ilmaisun kynnyksellä myös taidekritiikiltä edellytetään valveituneisuutta ja itsekriittisyyttä, kun teknologia integroituu yhä enemmän ja enemmän osaksi kuvataiteita. Artikkelissa “The Post is Over” kirjoitetaan siitä, ettei ehkä enää laisinkaan kannattaisi edes puhua mediataiteesta tai uusmediataiteesta, vaan teknologisesta taiteesta (16). Kuvataiteen teoria ja kritiikki ovat toistaiseksi pohjautuneet vahvasti ihmiskeskeiseen taidekäsitykseen. Tekoälyavusteisen taiteen valtavirtaistumisen myötä tätä näkökulmaa päästään laajentamaan osaksi muuta posthumanistista keskustelua. Tässä kohtaa voi henkäistä syvään: taidemaailmassa tuskin silti vielä on pelkoa mistään tekoälyn ylivallan askelmerkeistä.

Miten neuroverkoilla tuotetut kuvat sijoitetaan taidehistorian jatkumoon ja kuvataiteen sisäiseen diskurssiin? Millä kriteereillä niiden suhdetta käsityöläisyyteen ja kuvan tekemisen taitoon voidaan arvioida, kun koodi ja algoritmit tuottavat kuvia koulutusmateriaalin perusteella? Onko koodin toteuttaja vai käyttäjä olennaisempi osa luovaa prosessia? Muuttuuko samalla käsityksemme taiteilijaidentiteetistä? Mitä jos jonakin päivänä esitämme taidetta, jossa katsoja onkin jokin muu kuin toinen ihminen?

Kuvat ja teksti: Jukka Hautamäki

Viitteet:

(1) https://fi.wikipedia.org/wiki/Tekoäly

(2) https://www.thispersondoesnotexist.com

(3) https://news.artnet.com/art-world/ai-art-comes-to-market-is-it-worth-the-hype-1352011

(4) https://www.artnome.com/news/2018/10/13/the-ai-art-at-christies-is-not-what-you-think

(5) https://www.technologyreview.com/s/602658/context-language-and-reasoning-in-ai-three-key-challenges/

(6) https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

(7) https://frieze.com/article/could-there-ever-be-ai-artist

(8) Goodfellow, Ian ja tutkimusryhmä (2014). ”Generative Adversarial Networks”. arXiv:vhttps://arxiv.org/abs/1406.2661

(9) https://en.wikipedia.org/wiki/Generative_adversarial_network

(10) https://www.artnome.com/news/2018/12/30/deepdream-creator-unveils-very-first-images-after-three-years

(11) http://www.flusserstudies.net/sites/www.flusserstudies.net/files/media/attachments/krtilova-can-we-think.pdf

(12) https://www.theverge.com/tldr/2018/4/17/17247334/ai-fake-news-video-barack-obama-jordan-peele-buzzfeed

(13) https://ganbreeder.app

(14) https://www.youtube.com/watch?v=XOxxPcy5Gr4 , esimerkki latentin tilan interpolaatiosta.

(15) https://www.artnome.com/news/2018/11/14/helena-sarin-why-bigger-isnt-always-better-with-gans-and-ai-art

(16) https://www.neroeditions.com/the-post-is-over/