Images et IA
(page créée le 8 nov 2021)
“Text-to-image is the new Sudoku.”, Mario Klingemann
Listes de ressources
Génération d'images en ligne «Text-to-image»
Stable Diffusion
Stable Diffusion est un modèle de génération d'images, créé par Stability AI, le modèle a été entrainé sur 2,3 milliards d'images du dataset LAION-5B
mage.space
Service gratuit / réseau social permettant d'utiliser Stable Diffusion (NSFW) en ligne (version 1.5 le 28/11/2022). Permet aussi de partir d'une image existante pour en modifier une partie («img2img»).
dreamstudio
(Accès gratuit limité) Service d'accès à Stable Diffusion par StabilityAI
PlaygroundAI
(?) Service d'accès à Stable Diffusion
moteur de recherche
Dans des images créées par Stable Diffusion, images présentées avec les prompts :
- https://lexica.art + recherche inversée (voir aussi stable-diffusion-prompts)
explorer le dataset
- dans 12 millions d'images : https://laion-aesthetic.datasette.io/laion-aesthetic-6pls/images?_sort=rowid (article sur le projet)
- Vos images personnelles ont-elles étés aspirés dans le dataset LAION-5B ? https://haveibeentrained.com/.
- LAION5B explained : https://www.ivanzhou.me/blog/2022/12/4/paper-explained-laion-5b
aide à l'écriture de prompt
- Utiliser chatGPT pour écrire des prompts : https://www.reddit.com/r/StableDiffusion/comments/11ezpcg/chat_gpt_stable_diffusion_promt_generator/
temps réel avec Streamdiffusion
- https://alltd.org/real-time-diffusion-in-touchdesigner-streamdiffusiontd-setup-install-settings/ intégration dans touchdesigner
divers
vocabulaire
Des principes/procédés/logiciels qu'on retrouve dans l'univers de Stable Diffusion :
auto1111 / automatic1111 : interface web pour utiliser Stable Diffusion avec de nombreuses options, automatic1111 est l'auteur original qui a donné son nom au logiciel, mais le nom du projet est plutôt Stable Diffusion web UI
checkpoint / .ckpt
ControlNet : permet d'utiliser une image comme guide, avec beaucoup de subtilités! (utilisable dans automatic1111) par exemple : utiliser une image d'une pose corporelle comme guide appliquera cette pose au personnage créé par le prompt. Il existe différents parfums de ControlNet : ControlNet Canny, ControlNet openpose, ControlNet HED avec leurs spécificités
- https://www.reddit.com/r/StableDiffusion/comments/11cwiv7/collected_notes_and_observations_on_controlnet/ description des différentes méthodes
- conteolnet 1.1 en détail https://github.com/lllyasviel/ControlNet-v1-1-nightly
deforum : création d'animations à partir de prompts et d'indications sur l'animation (rotation, zoom, etc.)
- https://aituts.com/deforum/ bonne intro
- https://stable-diffusion-art.com/deforum/ autre intro
- https://rentry.org/AnimAnon-Deforum tous les paramètres expliqués
- https://docs.google.com/document/d/1pEobUknMFMkn8F5TMsv8qRzamXX_75BShMMXV8IFslI/edit guide pour Deforumv05 (pdf possible)
- https://rentry.org/AnimAnon excellent guide général sur l'animation
deforum/parseq : parseq est un séquenceur de paramètres pour deforum
- un exemple : https://www.youtube.com/shorts/fgiev3A93RU
diffusion : procédé de création des images qui part d'une image bruitée pour la débruiter en la faisant correspondre au prompt
dreambooth : méthode pour compléter l'entrainement d'un modèle à partir de photos personnelles
embeddings
img2img : image to image = modifier une iamge de base par un prompt
inpainting : modifier uniquement une partie d'une image préexistante
- inpainting avec automatic1111 : https://onceuponanalgorithm.org/using-inpaint-in-stable-diffusion-tutorial/
instruct pix2pix ; une forme particulière d'img2img qui permet de modifie des images existantes par une instruction tout en gardant leur structure, ex : “swap sunflowers with roses”, “turn it into a still from a western”
invisible watermark
invokeAI : logiciel web pour générer des iamges (inpainting, outpainting, etc.)
Latent Couple : composition controlée, segmentation, plusieurs prompts
latent diffusion
latent space
LoRA (Low-Resource Adaptation) : entrainement complémentaire d'un modèle, “fine-tune” / réglages fins (voir aussi dreambooth, textual inversion, qu iosnt des méthodes alternatives)
model
modifier
outpainting : “agrandir” une image en la complétant avec un prompt
paint-with-words : segmentation d'iamges, multiples prompts
prompt : énoncé texte fourni pour produire l'image, selon les logiciels cet énoncé peut être renforcé par des signes de ponctuation (parenthèses, crochets, etc.) pour donner plus ou moins de poids à certains mots ou expressions
sampler / sampling method
T2I adapter : transfert de style, composition controlée
textual inversion
token : plus petit élément quand un prompt est décomposé (une sorte d'“atome” de langage, syllabe mais pas vraiment, etc.)
tokenizer
txt2img : text to image = générer une iamge depuis un prompt
upscale
Dall-E mini
Création d'images à partir d'un énoncé («prompt») basé sur le modèle Dall-E Mini. Rapide et facile à utiliser
Dall-E 2
(Accès gratuit limité) Création d'images à partir d'un énoncé («prompt»)
- aide de l'éditeur : https://help.openai.com/en/articles/6516417-dall-e-editor-guide
MidJourney
(Accès gratuit limité) Création d'images à partir d'un énoncé («prompt»). Accessible sur Discord
Ressources
- styles dans midjourney : https://ckovalev.com/midjourney-ai/guide/how-to-apply-any-style-to-any-prompt-in-midjourney-ai
NijiJourney
= MidJourney x Spellbrush (Accès gratuit limité). Modèle entrainé et spécialisé sur les images d'anime)
VQGAN+CLIP
Création d'images à partir d'un énoncé («prompt»)
https://huggingface.co/spaces/akhaliq/VQGAN_CLIP(temps d'attente variable)- https://colab.research.google.com/drive/1_4Jl0a7WIJeqy5LTjPJfZOwMZopG5C-W?usp=sharing#scrollTo=g7EDme5RYCrt (colab / google nécessite un compte google)
Explication du principe : https://ljvmiranda921.github.io/notebook/2021/08/08/clip-vqgan/
Des exemples sur reddit
Une plateforme de publication : https://creator.nightcafe.studio/top
Une analyse des artistes/bédéistes/illustrateur·ice·s dans VQGAN : https://remidurant.com/artists/# (déjà la préhistoire en 2023)
ruDALL-E
Autres modèles, russes cette fois : https://rudalle.ru/en/
Le prompt qui va bien
Des ressources : https://pharmapsychotic.com/tools.html#sec-1f7f
How-to, books
- exemple de modifiers : https://promptomania.com/stable-diffusion-prompt-builder/
- stable diffusion 2.1 prompt book : https://app.usp.ai/static/Stable%20Diffusion%202.1%20Prompt%20Book%20by%20USP.ai.pdf
- guide prompts pour le modèle RPG v4 (mais informatif et général) : https://huggingface.co/Anashel/rpg/resolve/main/RPG-V4-Model-Download/RPG-Guide-v4.pdf
image to prompt
Plusieurs services en ligne proposent des prompts à partir d'une image qu'on leur envoie
- pour Stable Diffusion v1.x : https://huggingface.co/spaces/pharma/CLIP-Interrogator
- pour Stable Diffusion v2 : https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2
Comment ça marche ? : https://medium.com/@silkworm/diversify-photo-database-with-clip-interrogator-5dd1833be9f5
Conversion de prompts
De stable Diffusion v1.x à SD v2.0 : https://huggingface.co/spaces/fffiloni/prompt-converter
Vocabulaire
Animation d'image fixe
AdaMPI
3D Photo inpainting
Services privés en ligne
Plusieurs applications et services en ligne proposent d'animer des images fixes, par exemple : pour animer le visage d'un portrait, d'une photo ancienne, etc.
cutout.pro AI photo animer https://www.cutout.pro/photo-animer-gif-emoji email + gratuit pour le téléchargement basse définition avec watermark, payant pour une meilleure qualité
deep nostalgia https://www.myheritage.fr/deep-nostalgia (attention à la société qui propose ce service!)
leai.pix https://convert.leiapix.com/ transformation d'images fixes en images 3D lightfield (utilise depthy et BoostingMonocularDepth)
Augmentation de la définition d'une image
Restauration d'images
swinir (usage gratuit sur Replicate) : https://replicate.com/jingyunliang/swinir
D'autres possibilités sur replicate (gratuits ou payants)
Real ESRGAN
Augmentation de la définition d'une image
Article : https://github.com/xinntao/Real-ESRGAN#Portable-executable-files
Interpolation
FILM
RIFE
RealBasicVSR
«Real-World Video Super-Resolution»
Autres principes
Recherche
DragGAN
Edition d'images basée sur l'apprentissage automatique
DAIN (Depth-Aware Video Frame Interpolation)
Interpolation d'images : à partir d'une vidéo en stop motion, recréer la fluidité d'un tournage classique
Dreambooth
Génération fine d'images à partir d'une image source avec changements de contexte, de propriétés, etc.
CLIP (Contrastive Language-Image Pre-Training)
Mitsua
«This model is trained from scratch using only public domain/CC0 or copyright images with permission for use, with using a fixed pretrained text encoder (OpenCLIP ViT-H/14, MIT License).»
A installer
Stable Diffusion
Stable Diffusion Web UI
Art numérique et IA génératives
Paragraphica is a context-to-image camera that uses location data and artificial intelligence to visualize a “photo” of a specific place and moment. The camera exists both as a physical prototype and a virtual camera that you can try. ( https://bjoernkarmann.dk/project/paragraphica )
90 miles controverse sur l'utilisation de l'IA générative pour créer des iamges “documentaires” d'évènements passés : https://www.blind-magazine.com/fr/stories/comment-limagerie-ia-ebranle-le-photojournalisme/