Image: Stable Diffusion
Stable Diffusion er en latent tekst-til-bilde-diffusjonsmodell som er i stand til å generere fotorealistiske bilder ut fra hvilken som helst tekst, og som gir autonom frihet til å produsere utrolige bilder, noe som gjør det mulig for milliarder av mennesker å skape fantastisk kunst i løpet av sekunder.
Stable Diffusion, som er utviklet i samarbeid med CompVis-gruppen ved Ludwig-Maximilian-universitetet i München og andre bidragsytere, er en latent diffusjonsmodell som primært brukes til å generere detaljerte bilder fra tekstbeskrivelser. Den ble lansert i 2022 og skiller seg fra tidligere AI-modeller som DALL-E ved at den er åpen kildekode og kan brukes på forbrukermaskinvare med moderat GPU-kapasitet. Modellen benytter en teknikk som kalles latent diffusjon, der bilder denoiseres trinnvis fra en komprimert latent romrepresentasjon, styrt av tekst via en forhåndstrenet CLIP-tekstkoder. Dette gjør at modellen kan generere bilder direkte fra tekstmeldinger, og den kan også utføre oppgaver som inpainting og outpainting. Stable Diffusion ble trent på LAION-5B-datasettet, som inneholder milliarder av bilde-tekstpar, hovedsakelig hentet fra engelske beskrivelser. Dette har ført til bekymring for skjevheter i representasjon og forsterkning av vestlig-sentriske bilder. Modellen har også utløst juridiske og etiske debatter, særlig rundt bruken av kunstneres verk som opplæringsdata uten samtykke, noe som har ført til søksmål. Stable Diffusions tolerante tilnærming til generert innhold, inkludert potensielt skadelige bilder, har skapt ytterligere bekymringer rundt bruken og brukernes og utviklernes ansvar. Alt i alt representerer Stable Diffusion et stort fremskritt innen tilgjengelig AI-drevet bildegenerering, selv om det fører med seg betydelige utfordringer knyttet til opphavsrett, etikk og samfunnsmessige konsekvenser.