Stable Diffusion & ComfyUI : Générez des Images et Vidéos en Local

6 min de lecture 1250 mots

tl;dr: Générez des images et vidéos avec l'IA directement sur votre PC, même avec un matériel modeste. Stable Diffusion WebUI (A1111) pour les débutants, ComfyUI pour les workflows avancés. Installez en 5 minutes, utilisez des modèles gratuits, créez sans coûts cloud ni limites.

L’intelligence artificielle générative transforme la création visuelle. Avec Stable Diffusion et ComfyUI, vous pouvez générer des images et vidéos directement sur votre PC, sans cloud, sans coûts récurrents et en toute confidentialité. Stable Diffusion est le modèle open-source de référence pour la génération d’images à partir de texte, tandis que ComfyUI offre une interface nodale modulaire pour des workflows avancés.

Ce guide couvre l’installation complète (Windows/Linux/macOS), l’optimisation pour matériel modeste (4 Go VRAM ou CPU), et vous permettra de générer votre première image en 5 minutes. Inclut comparatifs, exemples pratiques et modèles gratuits pour démarrer.

Guide pratique sur la génération d’images avec IA locale pour déployer l’IA localement

Présentation des outils

Stable Diffusion WebUI (A1111) : Simplicité et accessibilité

Automatic1111’s Stable Diffusion WebUI est l’interface web la plus populaire pour Stable Diffusion. Conçue pour les débutants, elle offre une expérience intuitive avec accès à des milliers de modèles communautaires.

Points forts :

Interface web simple et accessible
Vaste écosystème d’extensions (upscaling, inpainting, vidéo avec Deforum)
Optimisé pour GPU NVIDIA/AMD/Intel dès 4 Go VRAM
Large communauté et documentation abondante

ComfyUI : Puissance et flexibilité pour utilisateurs avancés

ComfyUI adopte une approche nodale (type Blender ou Unreal Engine) permettant de créer des workflows visuels complexes. Parfait pour enchaîner génération, upscaling, animation et post-traitement en un seul graphe.

Points forts :

Exécution optimisée (ne recalcule que les nœuds modifiés)
Support natif vidéo (AnimateDiff, Stable Video Diffusion)
Fonctionne même en mode CPU-only sur matériel modeste
Compatible multi-GPU et Apple Silicon
Workflows réutilisables et partageables

Tableau comparatif

Critère	A1111 WebUI	ComfyUI
Public cible	Débutants et utilisateurs occasionnels	Utilisateurs avancés et workflows complexes
Interface	Formulaire web classique	Graphe nodal visuel
Courbe d’apprentissage	Immédiate	Modérée (15-30 min)
Flexibilité	Bonne (via extensions)	Excellente (workflows sur-mesure)
Configuration minimale	4 Go VRAM + GPU NVIDIA/AMD	2 Go VRAM ou CPU-only
Support vidéo	Extensions tierces (Deforum)	Natif (AnimateDiff, SVD)
Installation	10-15 min	5 min (version portable)
Vitesse d’exécution	Standard	Optimisée (cache intelligent)

Quel outil choisir ?

Choisissez A1111 si vous débutez ou cherchez une solution clé-en-main. L’interface intuitive permet de générer vos premières images en quelques clics, avec accès immédiat aux modèles communautaires et extensions populaires.

Choisissez ComfyUI si vous avez du matériel limité (CPU-only) ou souhaitez créer des workflows complexes réutilisables. Le système nodal excelle pour enchaîner génération, traitement et export sans recalculs inutiles.

Optimisations pour matériel modeste :

A1111 : Arguments --lowvram ou --medvram pour répartir la charge VRAM, --xformers pour accélérer la génération
ComfyUI : Mode --cpu fonctionnel, support AMD/Intel avec optimisations DirectML

Installation et premiers pas

Installation de Stable Diffusion WebUI (A1111)

Prérequis : Python 3.10+, Git, 8 Go RAM minimum

Windows (méthode recommandée)

Installez les dépendances
- Python 3.10.6+ (cochez “Add to PATH”)
- Git for Windows

Clonez et installez

git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui

Ajoutez un modèle
- Téléchargez un modèle (voir section Modèles gratuits)
- Placez le fichier .safetensors dans models/Stable-diffusion/
Lancez l’interface
- Double-cliquez sur webui-user.bat
- Premier lancement : télécharge PyTorch (~2 Go, 5-10 min)
- Ouvrez http://127.0.0.1:7860 dans votre navigateur

Optimisation matériel modeste : Éditez webui-user.bat, modifiez la ligne COMMANDLINE_ARGS= :

set COMMANDLINE_ARGS=--lowvram --xformers --no-half-vae

Linux

# Ubuntu/Debian
sudo apt install wget git python3 python3-venv
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
bash webui.sh

macOS (Apple Silicon)

# Installation avec support Metal
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

Votre première image avec A1111

Accédez à l’interface : Ouvrez http://127.0.0.1:7860
Configurez votre prompt (onglet txt2img)
- Prompt positif : Un chat cyberpunk dans une ville néon, style anime, haute qualité, détaillé
- Prompt négatif : flou, basse qualité, artefacts, déformé
Paramètres recommandés
- Sampling method : Euler a (rapide) ou DPM++ 2M Karras (qualité)
- Sampling steps : 20-25 (bon compromis vitesse/qualité)
- CFG Scale : 7-8 (respect du prompt)
- Width/Height : 512×512 (rapide) ou 768×512 (paysage)
Générez : Cliquez sur “Generate” (30s-2min selon matériel)
Sauvegardez : Clic droit sur l’image générée → “Save image as”

Astuces pour améliorer vos résultats :

Ajoutez des mots-clés de qualité : masterpiece, best quality, highly detailed
Utilisez des artistes de référence : style of Makoto Shinkai ou artstation trending
Expérimentez avec différents samplers pour des styles variés

Installation de ComfyUI

Prérequis : Python 3.10+, 8 Go RAM minimum (fonctionne en CPU-only)

Windows (Version portable - recommandée)

Téléchargez la version portable
- Accédez aux Releases GitHub
- Téléchargez ComfyUI_windows_portable.7z ou .zip
Extrayez l’archive
- Utilisez 7-Zip ou l’extracteur Windows
Ajoutez un modèle
- Placez votre fichier .safetensors dans ComfyUI\models\checkpoints\
Lancez ComfyUI
- GPU NVIDIA : run_nvidia_gpu.bat
- GPU AMD : run_amd_gpu.bat
- CPU uniquement : run_cpu.bat
- Ouvrez http://127.0.0.1:8188

Linux

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
python main.py

macOS (Apple Silicon)

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio
pip install -r requirements.txt
python main.py --force-fp16  # Optimisation pour Apple Silicon

Votre première image avec ComfyUI

Accédez à l’interface : Ouvrez http://127.0.0.1:8188
Chargez un workflow par défaut
- Appuyez sur Ctrl + D pour charger le workflow de base
- Ou importez un fichier .json depuis le dossier examples/
Configurez vos nœuds
- Load Checkpoint : Sélectionnez votre modèle
- CLIP Text Encode (Positive) : Un paysage montagneux au coucher du soleil, réaliste, 8k, masterpiece
- CLIP Text Encode (Negative) : low quality, blurry, distorted
- Empty Latent Image : 512×512 (taille de l’image)
- KSampler : steps=20, cfg=7, sampler=euler
Lancez la génération : Appuyez sur Ctrl + Enter ou cliquez “Queue Prompt”
Récupérez votre image : Elle s’affiche dans le nœud Save Image

Navigation dans l’interface :

Molette : Zoom avant/arrière
Clic central : Déplacement de la vue
Clic droit : Menu contextuel pour ajouter des nœuds
Ctrl + Z/Y : Annuler/Refaire

Modèles gratuits recommandés

Modèles polyvalents (bon point de départ)

Stable Diffusion 1.5

Téléchargement : Hugging Face
Fichier : v1-5-pruned-emaonly.safetensors (4 Go)
Usage : Modèle de base équilibré, idéal pour apprendre

Stable Diffusion XL (SDXL)

Téléchargement : Hugging Face
Fichier : sd_xl_base_1.0.safetensors (6,9 Go)
Usage : Meilleure qualité, nécessite 8+ Go VRAM

Modèles spécialisés

Realistic Vision V6 (Photoréalisme)

Téléchargement : Civitai
Idéal pour : Portraits, photos réalistes
Configuration : 4 Go VRAM minimum

DreamShaper (Art et illustrations)

Téléchargement : Civitai
Idéal pour : Art fantastique, illustrations colorées
Points forts : Résultats créatifs sans prompts complexes

Flux.1 Schnell (Rapidité)

Téléchargement : Hugging Face
Idéal pour : Génération rapide, matériel modeste
Particularité : Optimisé pour 4-8 steps seulement

Ressources complémentaires

Civitai : civitai.com/models - Plus grande bibliothèque communautaire
Hugging Face : huggingface.co/models?pipeline_tag=text-to-image - Modèles officiels et expérimentaux
LoRA et embeddings : Extensions légères pour personnaliser un modèle (disponibles sur Civitai)

Note : Privilégiez les fichiers .safetensors (plus sécurisés que .ckpt)

Pour aller plus loin

Extensions et fonctionnalités avancées

Pour A1111 :

ControlNet : Contrôle précis de la composition (poses, contours)
Deforum : Génération de vidéos et animations
Ultimate SD Upscale : Agrandissement haute qualité (4K+)

Pour ComfyUI :

AnimateDiff : Animation de personnages et objets
IPAdapter : Génération guidée par image de référence
Custom workflows : Automatisation de pipelines complexes

Optimisation des performances

Réduire l’utilisation VRAM :

# A1111
--lowvram --xformers --no-half-vae

# ComfyUI
--lowvram --cpu-vae

Accélérer la génération :

Réduire la résolution (512×512 au lieu de 768×768)
Diminuer les steps (15-20 au lieu de 25-30)
Utiliser des samplers rapides (Euler a, LCM)

Conclusion

La génération d’images par IA est désormais accessible à tous, sans cloud ni abonnement. Stable Diffusion WebUI convient parfaitement aux débutants avec son interface directe, tandis que ComfyUI offre une puissance et une flexibilité inégalées pour les workflows avancés.

Prochaines étapes :

Installez l’outil adapté à votre niveau
Téléchargez un modèle gratuit
Expérimentez avec différents prompts et paramètres
Rejoignez les communautés (Reddit r/StableDiffusion, Discord Civitai)

L’IA locale vous donne un contrôle total sur vos créations. Lancez-vous et explorez les possibilités infinies de la génération d’images !

← Retour à la série IA Locale