Images et IA

Ceci est une ancienne révision du document !

(page créée le 8 nov 2021)

“Text-to-image is the new Sudoku.”, Mario Klingemann

Listes de ressources

Génération d'images en ligne «Text-to-image»

Stable Diffusion est un modèle de génération d'images, créé par Stability AI, le modèle a été entrainé sur 2,3 milliards d'images du dataset LAION-5B

mage.space

Service gratuit / réseau social permettant d'utiliser Stable Diffusion (NSFW) en ligne (version 1.5 le 28/11/2022). Permet aussi de partir d'une image existante pour en modifier une partie («img2img»).

dreamstudio

(Accès gratuit limité) Service d'accès à Stable Diffusion par StabilityAI

https://beta.dreamstudio.ai/home

PlaygroundAI

(?) Service d'accès à Stable Diffusion

https://playgroundai.com/login

moteur de recherche

Dans des images créées par Stable Diffusion, images présentées avec les prompts :

https://lexica.art + recherche inversée (voir aussi stable-diffusion-prompts)
https://www.krea.ai
https://arthub.ai/
https://openart.ai/

vocabulaire

Des principes/procédés/logiciels qu'on retrouve dans l'univers de Stable Diffusion :

auto1111 / automatic1111 : interface web pour utiliser Stable Diffusion avec de nombreuses options, automatic1111 est l'auteur original qui a donné son nom au logiciel, mais le nom du projet est plutôt Stable Diffusion web UI

https://github.com/AUTOMATIC1111/stable-diffusion-webui

checkpoint / .ckpt

ControlNet : permet d'utiliser une image comme guide, avec beaucoup de subtilités! (utilisable dans automatic1111) par exemple : utiliser une image d'une pose corporelle comme guide appliquera cette pose au personnage créé par le prompt. Il existe différents parfums de ControlNet : ControlNet Canny, ControlNet openpose, ControlNet HED avec leurs spécificités

https://github.com/lllyasviel/ControlNet
https://aituts.com/controlnet/
https://www.reddit.com/r/StableDiffusion/comments/119o71b/a1111_controlnet_extension_explained_like_youre_5/
https://www.reddit.com/r/StableDiffusion/comments/11cwiv7/collected_notes_and_observations_on_controlnet/ description des différentes méthodes
conteolnet 1.1 en détail https://github.com/lllyasviel/ControlNet-v1-1-nightly

deforum : création d'animations à partir de prompts et d'indications sur l'animation (rotation, zoom, etc.)

dreambooth : méthode pour compléter l'entrainement d'un modèle à partir de photos personnelles

https://dreambooth.github.io/

embeddings

img2img : image to image = modifier une iamge de base par un prompt

inpainting : modifier uniquement une partie d'une image préexistante

inpainting avec automatic1111 : https://onceuponanalgorithm.org/using-inpaint-in-stable-diffusion-tutorial/

instruct pix2pix ; une forme particulière d'img2img qui permet de modifie des images existantes par une instruction tout en gardant leur structure, ex : “swap sunflowers with roses”, “turn it into a still from a western”

https://github.com/timothybrooks/instruct-pix2pix

invisible watermark

https://medium.com/@steinsfu/stable-diffusion-the-invisible-watermark-in-generated-images-2d68e2ab1241#504e

invokeAI : logiciel web pour générer des iamges (inpainting, outpainting, etc.)

Latent Couple : composition controlée, segmentation, plusieurs prompts

latent diffusion

latent space

LoRA (Low-Resource Adaptation) : entrainement complémentaire d'un modèle, “fine-tune” / réglages fins (voir aussi dreambooth, textual inversion, qu iosnt des méthodes alternatives)

model

https://rentry.org/sdmodels

modifier

outpainting : “agrandir” une image en la complétant avec un prompt

paint-with-words : segmentation d'iamges, multiples prompts

https://github.com/cloneofsimo/paint-with-words-sd

sampler / sampling method

(SD v1.4) https://proximacentaurib.notion.site/SD-Steps-vs-CFG-vs-Sampling-Method-e8765704d8a6457ca3f66058466fe43a

T2I adapter : transfert de style, composition controlée

textual inversion

token : plus petit élément quand un prompt est décomposé (une sorte d'“atome” de langage, syllabe mais pas vraiment, etc.)

tokenizer

txt2img : text to image = générer une iamge depuis un prompt

Création d'images à partir d'un énoncé («prompt») basé sur le modèle Dall-E Mini. Rapide et facile à utiliser

https://www.craiyon.com/

(Accès gratuit limité) Création d'images à partir d'un énoncé («prompt»)

https://openai.com/dall-e-2/
aide de l'éditeur : https://help.openai.com/en/articles/6516417-dall-e-editor-guide

(Accès gratuit limité) Création d'images à partir d'un énoncé («prompt»). Accessible sur Discord

https://www.midjourney.com/home/

Ressources

styles dans midjourney : https://ckovalev.com/midjourney-ai/guide/how-to-apply-any-style-to-any-prompt-in-midjourney-ai

= MidJourney x Spellbrush (Accès gratuit limité). Modèle entrainé et spécialisé sur les images d'anime)

https://nijijourney.com/

Création d'images à partir d'un énoncé («prompt»)

~~https://huggingface.co/spaces/akhaliq/VQGAN_CLIP~~ (temps d'attente variable)
(fev 2022) https://huggingface.co/spaces/EleutherAI/VQGAN_CLIP
https://colab.research.google.com/drive/1_4Jl0a7WIJeqy5LTjPJfZOwMZopG5C-W?usp=sharing#scrollTo=g7EDme5RYCrt (colab / google nécessite un compte google)

Explication du principe : https://ljvmiranda921.github.io/notebook/2021/08/08/clip-vqgan/

Des exemples sur reddit

Une plateforme de publication : https://creator.nightcafe.studio/top

Une analyse des artistes/bédéistes/illustrateur·ice·s dans VQGAN : https://remidurant.com/artists/# (déjà la préhistoire en 2023)

Autres modèles, russes cette fois : https://rudalle.ru/en/

Des ressources : https://pharmapsychotic.com/tools.html#sec-1f7f

exemple de modifiers : https://promptomania.com/stable-diffusion-prompt-builder/
stable diffusion 2.1 prompt book : https://app.usp.ai/static/Stable%20Diffusion%202.1%20Prompt%20Book%20by%20USP.ai.pdf
guide prompts pour le modèle RPG v4 (mais informatif et général) : https://huggingface.co/Anashel/rpg/resolve/main/RPG-V4-Model-Download/RPG-Guide-v4.pdf
un article : https://medium.com/@silkworm/high-quality-art-generation-with-the-prompt-suggestion-or-search-dbd59fb0f538
https://strikingloo.github.io/stable-diffusion-vs-dalle-2
https://photogpedia.com/ai-art-generators-prompt-building/
https://docs.google.com/document/d/17VPu3U2qXthOpt2zWczFvf-AH6z37hxUbvEe1rJTsEc/edit
https://github.com/joelparkerhenderson/stable-diffusion-image-prompt-gallery
https://serokell.io/blog/stable-diffusion
https://www.unlimiteddreamco.xyz/2022/03/16/writing-good-prompts-part-1.html
https://matthewmcateer.me/blog/clip-prompt-engineering/

Plusieurs services en ligne proposent des prompts à partir d'une image qu'on leur envoie

pour Stable Diffusion v1.x : https://huggingface.co/spaces/pharma/CLIP-Interrogator
pour Stable Diffusion v2 : https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2
https://huggingface.co/spaces/pharma/sd-prism
https://replicate.com/pharmapsychotic/clip-interrogator

Comment ça marche ? : https://medium.com/@silkworm/diversify-photo-database-with-clip-interrogator-5dd1833be9f5

De stable Diffusion v1.x à SD v2.0 : https://huggingface.co/spaces/fffiloni/prompt-converter

listes de mots https://github.com/pharmapsychotic/clip-interrogator/tree/main/clip_interrogator/data
modifier studies : https://proximacentaurib.notion.site/2b07d3195d5948c6a7e5836f9d535592?v=e8062bc85bfd43a99fb6e187e9bac926
artist style studies : https://proximacentaurib.notion.site/e28a4f8d97724f14a784a538b8589e7d?v=42948fd8f45c4d47a0edfc4b78937474
https://www.the-ai-art.com/modifiers

Plusieurs applications et services en ligne proposent d'animer des images fixes, par exemple : pour animer le visage d'un portrait, d'une photo ancienne, etc.

cutout.pro AI photo animer https://www.cutout.pro/photo-animer-gif-emoji email + gratuit pour le téléchargement basse définition avec watermark, payant pour une meilleure qualité

deep nostalgia https://www.myheritage.fr/deep-nostalgia (attention à la société qui propose ce service!)

leai.pix https://convert.leiapix.com/ transformation d'images fixes en images 3D lightfield (utilise depthy et BoostingMonocularDepth)

Augmentation de la définition d'une image

https://huggingface.co/spaces/akhaliq/Real-ESRGAN

Article : https://github.com/xinntao/Real-ESRGAN#Portable-executable-files

https://toonify.photos/

DAIN (Depth-Aware Video Frame Interpolation)

Interpolation d'images : à partir d'une vidéo en stop motion, recréer la fluidité d'un tournage classique

https://github.com/baowenbo/DAIN

Dreambooth

Génération fine d'images à partir d'une image source avec changements de contexte, de propriétés, etc.

CLIP (Contrastive Language-Image Pre-Training)

https://github.com/openai/CLIP

Images et IA

Génération d'images en ligne «Text-to-image»

Stable Diffusion

mage.space

dreamstudio

PlaygroundAI

moteur de recherche

explorer le dataset

aide à l'écriture de prompt

divers

vocabulaire

Dall-E mini

Dall-E 2

MidJourney

Ressources

NijiJourney

VQGAN+CLIP

ruDALL-E

Le prompt qui va bien

How-to, books

image to prompt

Conversion de prompts

Vocabulaire

Animation d'image fixe

Augmentation de la définition d'une image

Real ESRGAN

Autres principes

Recherche

DAIN (Depth-Aware Video Frame Interpolation)

Dreambooth

CLIP (Contrastive Language-Image Pre-Training)

A installer

Stable Diffusion

Stable Diffusion Web UI

Ressources diverses