Images et IA

(page créée le 8 nov 2021)

“Text-to-image is the new Sudoku.”, Mario Klingemann

Listes de ressources

Génération d'images en ligne «Text-to-image»

Stable Diffusion est un modèle de génération d'images, créé par Stability AI, le modèle a été entrainé sur 2,3 milliards d'images du dataset LAION-5B

mage.space

Service gratuit / réseau social permettant d'utiliser Stable Diffusion (NSFW) en ligne (version 1.5 le 28/11/2022). Permet aussi de partir d'une image existante pour en modifier une partie («img2img»).

dreamstudio

(Accès gratuit limité) Service d'accès à Stable Diffusion par StabilityAI

https://beta.dreamstudio.ai/home

PlaygroundAI

(?) Service d'accès à Stable Diffusion

https://playgroundai.com/login

moteur de recherche

Dans des images créées par Stable Diffusion, images présentées avec les prompts :

https://lexica.art + recherche inversée (voir aussi stable-diffusion-prompts)
https://www.krea.ai
https://arthub.ai/
https://openart.ai/

vocabulaire

Des principes/procédés/logiciels qu'on retrouve dans l'univers de Stable Diffusion :

auto1111 / automatic1111 : interface web pour utiliser Stable Diffusion avec de nombreuses options, automatic1111 est l'auteur original qui a donné son nom au logiciel, mais le nom du projet est plutôt Stable Diffusion web UI

https://github.com/AUTOMATIC1111/stable-diffusion-webui

checkpoint / .ckpt

ControlNet : permet d'utiliser une image comme guide, avec beaucoup de subtilités! (utilisable dans automatic1111) par exemple : utiliser une image d'une pose corporelle comme guide appliquera cette pose au personnage créé par le prompt. Il existe différents parfums de ControlNet : ControlNet Canny, ControlNet openpose, ControlNet HED avec leurs spécificités

https://github.com/lllyasviel/ControlNet
https://aituts.com/controlnet/
https://www.reddit.com/r/StableDiffusion/comments/119o71b/a1111_controlnet_extension_explained_like_youre_5/
https://www.reddit.com/r/StableDiffusion/comments/11cwiv7/collected_notes_and_observations_on_controlnet/ description des différentes méthodes
conteolnet 1.1 en détail https://github.com/lllyasviel/ControlNet-v1-1-nightly

deforum : création d'animations à partir de prompts et d'indications sur l'animation (rotation, zoom, etc.)

https://deforum.github.io
https://github.com/deforum-art/deforum-stable-diffusion
https://docs.google.com/document/d/1RrQv7FntzOuLg4ohjRZPVL7iptIyBhwwbcEYEW2OfcI/edit
https://github.com/deforum-art/sd-webui-deforum/wiki
https://aituts.com/deforum/ bonne intro
https://stable-diffusion-art.com/deforum/ autre intro
https://rentry.org/AnimAnon-Deforum tous les paramètres expliqués
https://docs.google.com/document/d/1pEobUknMFMkn8F5TMsv8qRzamXX_75BShMMXV8IFslI/edit guide pour Deforumv05 (pdf possible)
https://rentry.org/AnimAnon excellent guide général sur l'animation
https://replicate.com/deforum/deforum_stable_diffusion/examples

deforum/parseq : parseq est un séquenceur de paramètres pour deforum

diffusion : procédé de création des images qui part d'une image bruitée pour la débruiter en la faisant correspondre au prompt

dreambooth : méthode pour compléter l'entrainement d'un modèle à partir de photos personnelles

https://dreambooth.github.io/

embeddings

img2img : image to image = modifier une iamge de base par un prompt

inpainting : modifier uniquement une partie d'une image préexistante

inpainting avec automatic1111 : https://onceuponanalgorithm.org/using-inpaint-in-stable-diffusion-tutorial/

instruct pix2pix ; une forme particulière d'img2img qui permet de modifie des images existantes par une instruction tout en gardant leur structure, ex : “swap sunflowers with roses”, “turn it into a still from a western”

https://github.com/timothybrooks/instruct-pix2pix

invisible watermark

https://medium.com/@steinsfu/stable-diffusion-the-invisible-watermark-in-generated-images-2d68e2ab1241#504e

invokeAI : logiciel web pour générer des iamges (inpainting, outpainting, etc.)

https://github.com/invoke-ai/InvokeAI/blob/main/docs/features/UNIFIED_CANVAS.md

Latent Couple : composition controlée, segmentation, plusieurs prompts

latent diffusion

latent space

LoRA (Low-Resource Adaptation) : entrainement complémentaire d'un modèle, “fine-tune” / réglages fins (voir aussi dreambooth, textual inversion, qu iosnt des méthodes alternatives)

model

https://rentry.org/sdmodels

modifier

outpainting : “agrandir” une image en la complétant avec un prompt

paint-with-words : segmentation d'iamges, multiples prompts

https://github.com/cloneofsimo/paint-with-words-sd

prompt : énoncé texte fourni pour produire l'image, selon les logiciels cet énoncé peut être renforcé par des signes de ponctuation (parenthèses, crochets, etc.) pour donner plus ou moins de poids à certains mots ou expressions

sampler / sampling method

(SD v1.4) https://proximacentaurib.notion.site/SD-Steps-vs-CFG-vs-Sampling-Method-e8765704d8a6457ca3f66058466fe43a

T2I adapter : transfert de style, composition controlée

textual inversion

token : plus petit élément quand un prompt est décomposé (une sorte d'“atome” de langage, syllabe mais pas vraiment, etc.)

tokenizer

txt2img : text to image = générer une iamge depuis un prompt

upscale

https://github.com/AUTOMATIC1111/stable-diffusion-webui/discussions/6509?ref=learn.rundiffusion.com

Création d'images à partir d'un énoncé («prompt») basé sur le modèle Dall-E Mini. Rapide et facile à utiliser

https://www.craiyon.com/

(Accès gratuit limité) Création d'images à partir d'un énoncé («prompt»)

https://openai.com/dall-e-2/
aide de l'éditeur : https://help.openai.com/en/articles/6516417-dall-e-editor-guide

(Accès gratuit limité) Création d'images à partir d'un énoncé («prompt»). Accessible sur Discord

https://www.midjourney.com/home/

Ressources

styles dans midjourney : https://ckovalev.com/midjourney-ai/guide/how-to-apply-any-style-to-any-prompt-in-midjourney-ai

= MidJourney x Spellbrush (Accès gratuit limité). Modèle entrainé et spécialisé sur les images d'anime)

https://nijijourney.com/

Création d'images à partir d'un énoncé («prompt»)

~~https://huggingface.co/spaces/akhaliq/VQGAN_CLIP~~ (temps d'attente variable)
(fev 2022) https://huggingface.co/spaces/EleutherAI/VQGAN_CLIP
https://colab.research.google.com/drive/1_4Jl0a7WIJeqy5LTjPJfZOwMZopG5C-W?usp=sharing#scrollTo=g7EDme5RYCrt (colab / google nécessite un compte google)

Explication du principe : https://ljvmiranda921.github.io/notebook/2021/08/08/clip-vqgan/

Des exemples sur reddit

Une plateforme de publication : https://creator.nightcafe.studio/top

Une analyse des artistes/bédéistes/illustrateur·ice·s dans VQGAN : https://remidurant.com/artists/# (déjà la préhistoire en 2023)

Autres modèles, russes cette fois : https://rudalle.ru/en/

Des ressources : https://pharmapsychotic.com/tools.html#sec-1f7f

exemple de modifiers : https://promptomania.com/stable-diffusion-prompt-builder/
stable diffusion 2.1 prompt book : https://app.usp.ai/static/Stable%20Diffusion%202.1%20Prompt%20Book%20by%20USP.ai.pdf
guide prompts pour le modèle RPG v4 (mais informatif et général) : https://huggingface.co/Anashel/rpg/resolve/main/RPG-V4-Model-Download/RPG-Guide-v4.pdf
un article : https://medium.com/@silkworm/high-quality-art-generation-with-the-prompt-suggestion-or-search-dbd59fb0f538
https://strikingloo.github.io/stable-diffusion-vs-dalle-2
https://photogpedia.com/ai-art-generators-prompt-building/
https://docs.google.com/document/d/17VPu3U2qXthOpt2zWczFvf-AH6z37hxUbvEe1rJTsEc/edit
https://github.com/joelparkerhenderson/stable-diffusion-image-prompt-gallery
https://serokell.io/blog/stable-diffusion
https://www.unlimiteddreamco.xyz/2022/03/16/writing-good-prompts-part-1.html
https://matthewmcateer.me/blog/clip-prompt-engineering/

Plusieurs services en ligne proposent des prompts à partir d'une image qu'on leur envoie

pour Stable Diffusion v1.x : https://huggingface.co/spaces/pharma/CLIP-Interrogator
pour Stable Diffusion v2 : https://huggingface.co/spaces/fffiloni/CLIP-Interrogator-2
https://huggingface.co/spaces/pharma/sd-prism
https://replicate.com/pharmapsychotic/clip-interrogator

Comment ça marche ? : https://medium.com/@silkworm/diversify-photo-database-with-clip-interrogator-5dd1833be9f5

De stable Diffusion v1.x à SD v2.0 : https://huggingface.co/spaces/fffiloni/prompt-converter

listes de mots https://github.com/pharmapsychotic/clip-interrogator/tree/main/clip_interrogator/data
modifier studies : https://proximacentaurib.notion.site/2b07d3195d5948c6a7e5836f9d535592?v=e8062bc85bfd43a99fb6e187e9bac926
artist style studies : https://proximacentaurib.notion.site/e28a4f8d97724f14a784a538b8589e7d?v=42948fd8f45c4d47a0edfc4b78937474
https://www.the-ai-art.com/modifiers

Plusieurs applications et services en ligne proposent d'animer des images fixes, par exemple : pour animer le visage d'un portrait, d'une photo ancienne, etc.

cutout.pro AI photo animer https://www.cutout.pro/photo-animer-gif-emoji email + gratuit pour le téléchargement basse définition avec watermark, payant pour une meilleure qualité

deep nostalgia https://www.myheritage.fr/deep-nostalgia (attention à la société qui propose ce service!)

leai.pix https://convert.leiapix.com/ transformation d'images fixes en images 3D lightfield (utilise depthy et BoostingMonocularDepth)

swinir (usage gratuit sur Replicate) : https://replicate.com/jingyunliang/swinir

D'autres possibilités sur replicate (gratuits ou payants)

Augmentation de la définition d'une image

Article : https://github.com/xinntao/Real-ESRGAN#Portable-executable-files

https://replicate.com/pollinations/rife-video-interpolation

«Real-World Video Super-Resolution»

https://toonify.photos/

DragGAN

Edition d'images basée sur l'apprentissage automatique

DAIN (Depth-Aware Video Frame Interpolation)

Interpolation d'images : à partir d'une vidéo en stop motion, recréer la fluidité d'un tournage classique

https://github.com/baowenbo/DAIN

Dreambooth

Génération fine d'images à partir d'une image source avec changements de contexte, de propriétés, etc.

CLIP (Contrastive Language-Image Pre-Training)

https://github.com/openai/CLIP

Mitsua

«This model is trained from scratch using only public domain/CC0 or copyright images with permission for use, with using a fixed pretrained text encoder (OpenCLIP ViT-H/14, MIT License).»

https://huggingface.co/Mitsua/mitsua-diffusion-one

Stable Diffusion Web UI

Paragraphica is a context-to-image camera that uses location data and artificial intelligence to visualize a “photo” of a specific place and moment. The camera exists both as a physical prototype and a virtual camera that you can try. ( https://bjoernkarmann.dk/project/paragraphica )

90 miles controverse sur l'utilisation de l'IA générative pour créer des iamges “documentaires” d'évènements passés : https://www.blind-magazine.com/fr/stories/comment-limagerie-ia-ebranle-le-photojournalisme/

Images et IA

Génération d'images en ligne «Text-to-image»

Stable Diffusion

mage.space

dreamstudio

PlaygroundAI

moteur de recherche

explorer le dataset

aide à l'écriture de prompt

temps réel avec Streamdiffusion

divers

vocabulaire

Dall-E mini

Dall-E 2

MidJourney

Ressources

NijiJourney

VQGAN+CLIP

ruDALL-E

Le prompt qui va bien

How-to, books

image to prompt

Conversion de prompts

Vocabulaire

Animation d'image fixe

AdaMPI

3D Photo inpainting

Services privés en ligne

Augmentation de la définition d'une image

Restauration d'images

Real ESRGAN

Interpolation

FILM

RIFE

RealBasicVSR

Autres principes

Recherche