Kuidas AI abil luua pilte ja videot?

Tehisintellekti lahenduste eesmärk on teha elu lihtsamaks. Keelemudelid loovad tekste või teevad pikematest tekstidest kokkuvõtteid. Vajadusel ka järgmise aasta Eesti riigieelarve 500-leheküljelisest seletuskirjast. Häälemudelid teevad teksti heliks ja vastupidi. Pildimudelid teevad tekstist pildi või muudavad seda. Videomudelid panevad teksti, heli ja pildi kokku ja teevad muid põnevaid asju.

Kui keelemudelite abil saame luua teksti kiiremini ehk teha aeganõudvaid töid vähesema vaevaga, siis pildimudelite abil saame luua kujundatud pilte, mida enamus meist ka parima tahtmise korral ise ei suudaks teha.

Selles loos vaatlemegi pildi- ja videomudeleid, mis võivad meid oma loovuselt keelemudelitest rohkem üllatada.

Mudel vs tööriist

AI pilt ja video

Tehisintellekti lahendustest aru saamiseks tuleb mõista, et inimene kasutab AI tööriista, mis omakorda kasutab AI mudelit. Mudeleid on vähe, näiteks olulisemaid keele- ja pildimudeleid on kokku alla kümne, kuid nendele mudelitele loodud rakendusi ehk neid, mida inimesed veebipõhiselt kasutavad, on üle kümne tuhande.

Selleks, et asi oleks segasem, on mõned lahendused samade või sarnaste nimedega, näiteks ChatGPT-s on kasutusel nii 3.5 kui 4.0 mudelid, pildimudelites räägitakse Midjourneyst, mida kasutatakse tegelikult läbi Discordi rakenduse, Dall-E mudel on kättesaadav nii ChatGPT 4.0 versioonis kui tasuta bing.com/create aadressilt jne.

AI pilditööriistad

Olulisemaid pildimudeleid on kolm – Midjourney, Dall-E ja Stable Diffusion, kuid nende kõrvale on tekkinud ka Adobe, Google jt poolt teisi võimalusi.

Panin kokku lühiülevaate ja mõned näited kolmest tähtsamast.

Midjourney

Midjourney on hetkel kõige parema kunstilise tasemega lahendus, millises inimeste kujutamine, tekstuurid ja muud kujundused on paremad kui teistel. Lisaks saab selles loodud pildivalikust ühe klikiga valitust uued neli versiooni ehk pilti edasi arendada. Alates juunist ehk 5.2 versioonist saab luua ka väljasuumitud pilte, kus loodud tulemust saab laiendada vastavalt enda soovidele. Kui neid pilte montaažiprogrammis ritta seada, siis saab ka luua ka video.

Lisaks on loodud lahendusi, kus Midjourneys loodud pildil saad näo enda vastu vahetada. Näiteks InSwapperi tööriistaga, millega saad tutvuda siit.

Midjourney miinusteks on selle esmakasutusmugavus ehk mudelit saad kasutada läbi Discordi rakenduse, sellel on ainult tasuline versioon, ta ei oska pildile lisada teksti, läheneb liiga „loovalt“ inimeste sõrmede kujutamisele ning veidi on probleeme ka täpsusega ehk promptidest arusaamisega. Aga sellegipoolest on tulemused üldjuhul kõige paremad.

Dall-E 3

Septembri lõpus tuli Chat GPT looja Open AI välja Dall-E 3 versiooniga, mis oma arengus tegi pika sammu Midjourney-le lähemale. Ta on suhteliselt täpne ehk teeb sulle umbes täpselt sellise pildi mille lähteülesandeks andsid, saab aru, kui soovisid pildile ka teksti ning lisaks muule saab seda kõike bing.com/create lehelt tasuta kasutada. Tasulise ChatGPT ehk 4 versiooni kasutajad saavad seda katsetada otse chat.openai.com lehelt.

Miinuseks on see, et Dall-E ei ole kaugeltki nii loov ja realistlik kui Midjourney ehk võid saada küll soovidele paremini vastava pildi, kuid see ei ole visuaalselt nii hea. Sellel on lisaks küllaltki tihe tsensuurisõel ehk mitmeid, ka loogilisena tunduvaid pildisoove, ei pruugi ta täita.

Stable Diffusion

Stable Diffusioni mudelile on lugematu hulk veebiarendajaid oma AI tööriistad ehitanud. Üheks tuntuimaks on Leonardo.AI, milles sisse logides näeb loodud piltide galeriid ehk saab aru selle võimekusest. Lisaks saab tasuta krediidipunkte, millega lahendust testida.

AI pildi test: inimene, robot ja sülearvuti

Andsin AI tööriistadele pildi tegemiseks prompti ehk viipe, mille minu hinnangul on parim eestikeelne vaste „lähteülesanne“. See sai lühike: „human, robot and laptop“. Tulemused said allolevad.

Midjourney

MIDJOURNEY human robot laptop 2

Midjourney annab lähteülesande vasuseks 4 pilti. Antud promptile tulid just sellest kõige kenamad ja kunstilisemad tulemused. Midjourney eeliseks on see, et lisaks valiku tegemisele saad selles valida meeldinud pildist uued 4 versiooni. Antud juhul katsetasin kolmanda pildiga. 

Bing.com/create (Dall-E)

DALL-E human robot laptop

Dall-E 3 pildimudel, mis on kättesaadav bing.com/create lehelt, andis esimese korraga lähteülesandele palju paremini vastavad tulemused. Aga selge, et kunstilise taseme poolest jäävad need Midjourney-le alla.

Bing.com/create lehelt on piltide loomine tasuta, sarnaselt Midjourney-ga saab vastuseks neli pilti. Aga juba on infot, et lähiajal võib see muutuda kahele. 

Leonardo.AI (Stable Diffusion)

Promptist arusaamine on parem kui Midjourneyl, tulemus parem kui Dall-E, kuid ei saa väita, et olid kõige paremad tulemused või kõige parem soovist arusaamine.

Leonardo.AI puhul saad vastavalt oma krediidile ise valida, kas vastuseks saad ühe või kuni 8 pilti.

Milline on parim AI pilditööriist?

Parim pilditööriist sõltub eelkõige soovidest. Kas pilt peaks olema realistlik, kunstiline või vastama täpselt soovidele? Näiteks mõne spetsiifilise sooviga – pilt „köielkõndijast, kes hoiaks pikka tasakaalukeppi“, suutis kõige parema lahenduse pakkuda hoopis Dall-E. Raamatu kaane kujundamisel on parimaks lahenduseks see, mis suudab teksti lisada. Paljudele on aga tähtsaimaks hoopis see, et lahendus oleks lihtne ja tasuta.

Seega, soovituslik kasutusjärjekord kõigile, kes esmakordselt AI piltide soovivad ise luua:

  1. Alusta com/create lehelt ja proovi Dall-E abil tasuta mõned pildid teha.
  2. Kui meeldis, siis järgmisena testi Leonardo.AI Stable Diffusion mudelit. Kasuta esimesel korral saadud tasuta krediiti ja PhotoReal lahendust.
  3. Kui AI piltide vastu tekkis nüüd suurem huvi, siis jätka Midjourney õppimisega. Esimestel korral võib see tunduda natuke keeruline, näiteks selleks, et saaksid 16:9 kuvasuhtega pildi, pead prompti lõppu kirjutama „–ar 16:9“ jne. Väike trükiviga ja ta sellega ei arvesta.

Kellele kuuluvad AI piltide autoriõigused

AI pildid on väga head kasutamaks veebilehtedel ja presentatsioonides, kuna autoriõiguseid neil puuduvad ehk võid neid vabalt kasutada. Googlest suvalisi pilte alla laadides võid sellega jääda hätta ning sarnaste piltide kujundamine võib olla kulukam. Ka pildipankadest ei pruugi täpselt sama soovi saada, pealgi on pildipankades juba päris palju AI poolt loodud sisu.

AI videotööriistad

Videote loomine AI abil on keerulisem, kuna see hõlmab teksti, heli ja piltide kombineerimist. Sellegipoolest annan paar soovitust, milliseid AI videotööriistu võiksid testida.

InVideo

InVideo on esimene AI lahendus, kus saad anda keele- ja pilditööriistade stiilis lähteülesande ja vastu saad video. Ehk lahendus teeb sinu soovist kõigepealt teksti, siis pealelugemise ja viimaks lisab pildi- ja videopankadest sobivad kattekaadrid. Ja seda kõike väga kiirelt. Saad enne video allalaadimist muuta nii teksti, kui kattekaadreid ja soovi korral lisada peale ka subtiitrid. Veel lihtsamalt ja kiiremalt on videot keeruline teha.

HeyGen

HeyGen on üks põnevamaid AI videolahendusi, kus saad panna ükskõik kelle, ükskõik kuhu, rääkima ükskõik mida. Näiteks saad integreerida rääkiva pea slaididega, et vastata korduma kippuvatele küsimustele või koostada videoloenguid.

Sarnaseid AI videotööriistu on mitmeid (Synthesia, D-ID jt), kuid HeyGen-is on ka videotõlke funktsioon, milles kui räägid inglise keeles, saad videotõlke koos suuliigutustega rohkem kui kümnesse eri keelde. Proovi näiteks kuidas kõlad prantsuse, poola või hiina keeles.

Deepmotion

Deepmotion on gramm keerulisem AI videolahendus, mis paneb 3D animatsioonid liikuma. Selleks on kõigepealt vaja luua avatar. Seda saad stiliseeritud kujul luua eestlaste poolt loodud ReadyPlayerMe lahenduses või realistlikumal kujul Avaturnis. Tegin endast mõlemad ja panin need 15 minutiga ühe tik-toki tantsuvideojärgi liigutama. 15 minutiga ma ühtegi tantsu ära ei õpiks. Kuigi ärilist eesmärki sellele on raske leida, oli meelelahutust oi kui palju.

AI on tulnud, et jääda

Tehisintellekt on turundajate tööriistajakasti tulnud selleks, et jääda. Mõni arvab, et ka maailma üle võtta, kuid sellega läheb veel aega. Kui leidsid aja, et see lugu läbi lugeda, siis leia see minut, et teha AI abil üks pilt. Mine bing.com/create ja saad oma esitatud soovile neli pilti.

Kui teema huvitab sind rohkem, siis katseta ka teisi AI tööriistu. Kui aga tekkis liikuva pildi ehk video kohta suurem huvi, siis osale 22. novembril Äripäeva Akadeemia koolitusel või võta ühendust.

AI personaaltreeneri soovitused

Soovid olla kursis YouTube'i ja tehisintellekti (AI) viimaste arengutega? Liitu uudiskirjaga ja saad iga kuu ülevaate. 

etEstonian