Oppgradert bildemodell i ChatGPT
OpenAI har nettopp rullet ut en ny funksjon i ChatGPT: bildegenerering med Sora – og denne er tilgjengelig også i gratisversjonen av ChatGPT.
Nå kan man altså bruke Sora.com til å generere videos og stillbilder. Det er samme bildegenereringsmodell via som nåes i ChatGPT.
Føringer
OpenAI hevder de har lagt inn begrensninger for å forhindre misbruk av genererte bilder. Det skal angivelig være føringer som skal forhindre generering av kjente mennesker og støtende innhold.
Men; i min korte test i dag så viser dette seg å ikke stemme.
Prompt
“Donald Trump sitting at a comically small children's table, drinking tea from a play set, surrounded by dolls and girl's toys, as if he was in a toddler girl's play room.”
Når dette skrives, er det ca 24 timer siden bildemodellen til Sora ble lansert, og jeg har i løpet av dagen funnet flere eksempler på heller …tvilsomt innhold.
Uten å vise til eksempler eller gå nevneverdig inn på det dreier det seg f.eks om Elon Musk med en t-skjorte med “ytre høyre assosisasjoner”, et produktfoto av et LEGO frigursett med “en tysk leder på 1940-tallet som taler” og flere eksempler med seksualisert innhold helt i grenseland av hva Amerikanse selskaper normalt sett tillater.
Spent på hvordan OpenAI styrer dette fremover. Jeg får inntrykk av at de prøver å balansere helt opp der på kniveggen.
Modellen
Soras bildegenerering er bygget på en modell som gjør at man beholder deler av et bilde, og bildets kontekst videreføres fra iterasjon til iterasjon.
Tekst-generering er også mye bedre enn hva vi har sett tidligere med Dall-E og Midjourney, og jeg klarte helt fint å generere bilder av en person med TECHLAB t-skjorte.
Dette betyr at AI-en nå har bedre kontroll over hvordan elementer i bildene forholder seg til hverandre over tid, noe som gir mer presise og realistiske resultater, over flere iterasjoner.
Se for eksempel på det søte pinnsvinet under. Her ser man at det er samme karakter (Pinny som jeg kaller den) som går videre med Remix featuren i Sora / ChatGPT.
OpenAI sier også de har lagt inn digitale markører i bildene for å tydelig indikere at de er AI-genererte, en markør som helt sikkert fanges opp av algoritimer og roboter.
Problemet er kanskje bare at vi mennesker ikke fanger opp de markørene.
Evnen til å holde på karakterer fra bilde til bilde skiller seg ut fra tjenester som Dall-E og Midjourney, der hver generering er unik. Med Sora kan man altså iterere videre på et design eller konsept i større grad.
Bruksområder
Så, hva kan du bruke Sora til? Det er veldig bra på en veldig mye. Dine behov mulighetsrom er vanskelig å forutsi.
Du kan lage alt fra konseptart, stiliserte illustrasjoner til landskap og futuristiske byer, portrett, produktfoto -og ja, alt er mulig. Her er det kun fantasien og hvor mye tid du har til å vente på bilder som begrenser.
Pris
At dette er inkludert i gratisversjonen av ChatGPT er en solid oppgradering, og det blir spennende å se hvor godt Sora fungerer i praksis. Har du testet det ennå? Del gjerne erfaringene dine!
Modellen er mye bedre til å generere tekst enn vi har sett tidligere.
Noen bildetyper, som produktfoto, oppfattes som vanskelige å skille fra reelle bilder.
Kontakt oss
Er du nysgjerrig på mulighetene med generativ KI?
TECHLAB fortsetter å eksperimentere med KI-tjenester – kontakt oss for en gjennomgang eller workshop!