Stable Diffusion & ComfyUI : Générez des Images et Vidéos en Local

tl;dr: Générez des images et vidéos avec l'IA directement sur votre PC, même avec un matériel modeste. Stable Diffusion WebUI (A1111) pour les débutants, ComfyUI pour les workflows avancés. Installez en 5 minutes, utilisez des modèles gratuits, créez sans coûts cloud ni limites.

L’intelligence artificielle générative transforme la création visuelle. Avec Stable Diffusion et ComfyUI, vous pouvez générer des images et vidéos directement sur votre PC, sans cloud, sans coûts récurrents et en toute confidentialité. Stable Diffusion est le modèle open-source de référence pour la génération d’images à partir de texte, tandis que ComfyUI offre une interface nodale modulaire pour des workflows avancés.

Ce guide couvre l’installation complète (Windows/Linux/macOS), l’optimisation pour matériel modeste (4 Go VRAM ou CPU), et vous permettra de générer votre première image en 5 minutes. Inclut comparatifs, exemples pratiques et modèles gratuits pour démarrer.

Guide pratique sur la génération d’images avec IA locale pour déployer l’IA localement

Présentation des outils

Stable Diffusion WebUI (A1111) : Simplicité et accessibilité

Automatic1111’s Stable Diffusion WebUI est l’interface web la plus populaire pour Stable Diffusion. Conçue pour les débutants, elle offre une expérience intuitive avec accès à des milliers de modèles communautaires.

Points forts :

  • Interface web simple et accessible
  • Vaste écosystème d’extensions (upscaling, inpainting, vidéo avec Deforum)
  • Optimisé pour GPU NVIDIA/AMD/Intel dès 4 Go VRAM
  • Large communauté et documentation abondante

ComfyUI : Puissance et flexibilité pour utilisateurs avancés

ComfyUI adopte une approche nodale (type Blender ou Unreal Engine) permettant de créer des workflows visuels complexes. Parfait pour enchaîner génération, upscaling, animation et post-traitement en un seul graphe.

Points forts :

  • Exécution optimisée (ne recalcule que les nœuds modifiés)
  • Support natif vidéo (AnimateDiff, Stable Video Diffusion)
  • Fonctionne même en mode CPU-only sur matériel modeste
  • Compatible multi-GPU et Apple Silicon
  • Workflows réutilisables et partageables

Tableau comparatif

CritèreA1111 WebUIComfyUI
Public cibleDébutants et utilisateurs occasionnelsUtilisateurs avancés et workflows complexes
InterfaceFormulaire web classiqueGraphe nodal visuel
Courbe d’apprentissageImmédiateModérée (15-30 min)
FlexibilitéBonne (via extensions)Excellente (workflows sur-mesure)
Configuration minimale4 Go VRAM + GPU NVIDIA/AMD2 Go VRAM ou CPU-only
Support vidéoExtensions tierces (Deforum)Natif (AnimateDiff, SVD)
Installation10-15 min5 min (version portable)
Vitesse d’exécutionStandardOptimisée (cache intelligent)

Quel outil choisir ?

Choisissez A1111 si vous débutez ou cherchez une solution clé-en-main. L’interface intuitive permet de générer vos premières images en quelques clics, avec accès immédiat aux modèles communautaires et extensions populaires.

Choisissez ComfyUI si vous avez du matériel limité (CPU-only) ou souhaitez créer des workflows complexes réutilisables. Le système nodal excelle pour enchaîner génération, traitement et export sans recalculs inutiles.

Optimisations pour matériel modeste :

  • A1111 : Arguments --lowvram ou --medvram pour répartir la charge VRAM, --xformers pour accélérer la génération
  • ComfyUI : Mode --cpu fonctionnel, support AMD/Intel avec optimisations DirectML

Installation et premiers pas

Installation de Stable Diffusion WebUI (A1111)

Prérequis : Python 3.10+, Git, 8 Go RAM minimum

Windows (méthode recommandée)

  1. Installez les dépendances

  2. Clonez et installez

    git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
    cd stable-diffusion-webui
    
  3. Ajoutez un modèle

    • Téléchargez un modèle (voir section Modèles gratuits)
    • Placez le fichier .safetensors dans models/Stable-diffusion/
  4. Lancez l’interface

    • Double-cliquez sur webui-user.bat
    • Premier lancement : télécharge PyTorch (~2 Go, 5-10 min)
    • Ouvrez http://127.0.0.1:7860 dans votre navigateur

Optimisation matériel modeste : Éditez webui-user.bat, modifiez la ligne COMMANDLINE_ARGS= :

set COMMANDLINE_ARGS=--lowvram --xformers --no-half-vae

Linux

# Ubuntu/Debian
sudo apt install wget git python3 python3-venv
wget -q https://raw.githubusercontent.com/AUTOMATIC1111/stable-diffusion-webui/master/webui.sh
bash webui.sh

macOS (Apple Silicon)

# Installation avec support Metal
git clone https://github.com/AUTOMATIC1111/stable-diffusion-webui.git
cd stable-diffusion-webui
./webui.sh

Votre première image avec A1111

  1. Accédez à l’interface : Ouvrez http://127.0.0.1:7860

  2. Configurez votre prompt (onglet txt2img)

    • Prompt positif : Un chat cyberpunk dans une ville néon, style anime, haute qualité, détaillé
    • Prompt négatif : flou, basse qualité, artefacts, déformé
  3. Paramètres recommandés

    • Sampling method : Euler a (rapide) ou DPM++ 2M Karras (qualité)
    • Sampling steps : 20-25 (bon compromis vitesse/qualité)
    • CFG Scale : 7-8 (respect du prompt)
    • Width/Height : 512×512 (rapide) ou 768×512 (paysage)
  4. Générez : Cliquez sur “Generate” (30s-2min selon matériel)

  5. Sauvegardez : Clic droit sur l’image générée → “Save image as”

Astuces pour améliorer vos résultats :

  • Ajoutez des mots-clés de qualité : masterpiece, best quality, highly detailed
  • Utilisez des artistes de référence : style of Makoto Shinkai ou artstation trending
  • Expérimentez avec différents samplers pour des styles variés

Installation de ComfyUI

Prérequis : Python 3.10+, 8 Go RAM minimum (fonctionne en CPU-only)

Windows (Version portable - recommandée)

  1. Téléchargez la version portable

    • Accédez aux Releases GitHub
    • Téléchargez ComfyUI_windows_portable.7z ou .zip
  2. Extrayez l’archive

    • Utilisez 7-Zip ou l’extracteur Windows
  3. Ajoutez un modèle

    • Placez votre fichier .safetensors dans ComfyUI\models\checkpoints\
  4. Lancez ComfyUI

    • GPU NVIDIA : run_nvidia_gpu.bat
    • GPU AMD : run_amd_gpu.bat
    • CPU uniquement : run_cpu.bat
    • Ouvrez http://127.0.0.1:8188

Linux

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu121
pip install -r requirements.txt
python main.py

macOS (Apple Silicon)

git clone https://github.com/comfyanonymous/ComfyUI.git
cd ComfyUI
pip install torch torchvision torchaudio
pip install -r requirements.txt
python main.py --force-fp16  # Optimisation pour Apple Silicon

Votre première image avec ComfyUI

  1. Accédez à l’interface : Ouvrez http://127.0.0.1:8188

  2. Chargez un workflow par défaut

    • Appuyez sur Ctrl + D pour charger le workflow de base
    • Ou importez un fichier .json depuis le dossier examples/
  3. Configurez vos nœuds

    • Load Checkpoint : Sélectionnez votre modèle
    • CLIP Text Encode (Positive) : Un paysage montagneux au coucher du soleil, réaliste, 8k, masterpiece
    • CLIP Text Encode (Negative) : low quality, blurry, distorted
    • Empty Latent Image : 512×512 (taille de l’image)
    • KSampler : steps=20, cfg=7, sampler=euler
  4. Lancez la génération : Appuyez sur Ctrl + Enter ou cliquez “Queue Prompt”

  5. Récupérez votre image : Elle s’affiche dans le nœud Save Image

Navigation dans l’interface :

  • Molette : Zoom avant/arrière
  • Clic central : Déplacement de la vue
  • Clic droit : Menu contextuel pour ajouter des nœuds
  • Ctrl + Z/Y : Annuler/Refaire

Modèles gratuits recommandés

Modèles polyvalents (bon point de départ)

Stable Diffusion 1.5

  • Téléchargement : Hugging Face
  • Fichier : v1-5-pruned-emaonly.safetensors (4 Go)
  • Usage : Modèle de base équilibré, idéal pour apprendre

Stable Diffusion XL (SDXL)

  • Téléchargement : Hugging Face
  • Fichier : sd_xl_base_1.0.safetensors (6,9 Go)
  • Usage : Meilleure qualité, nécessite 8+ Go VRAM

Modèles spécialisés

Realistic Vision V6 (Photoréalisme)

  • Téléchargement : Civitai
  • Idéal pour : Portraits, photos réalistes
  • Configuration : 4 Go VRAM minimum

DreamShaper (Art et illustrations)

  • Téléchargement : Civitai
  • Idéal pour : Art fantastique, illustrations colorées
  • Points forts : Résultats créatifs sans prompts complexes

Flux.1 Schnell (Rapidité)

  • Téléchargement : Hugging Face
  • Idéal pour : Génération rapide, matériel modeste
  • Particularité : Optimisé pour 4-8 steps seulement

Ressources complémentaires

Note : Privilégiez les fichiers .safetensors (plus sécurisés que .ckpt)

Pour aller plus loin

Extensions et fonctionnalités avancées

Pour A1111 :

  • ControlNet : Contrôle précis de la composition (poses, contours)
  • Deforum : Génération de vidéos et animations
  • Ultimate SD Upscale : Agrandissement haute qualité (4K+)

Pour ComfyUI :

  • AnimateDiff : Animation de personnages et objets
  • IPAdapter : Génération guidée par image de référence
  • Custom workflows : Automatisation de pipelines complexes

Optimisation des performances

Réduire l’utilisation VRAM :

# A1111
--lowvram --xformers --no-half-vae

# ComfyUI
--lowvram --cpu-vae

Accélérer la génération :

  • Réduire la résolution (512×512 au lieu de 768×768)
  • Diminuer les steps (15-20 au lieu de 25-30)
  • Utiliser des samplers rapides (Euler a, LCM)

Conclusion

La génération d’images par IA est désormais accessible à tous, sans cloud ni abonnement. Stable Diffusion WebUI convient parfaitement aux débutants avec son interface directe, tandis que ComfyUI offre une puissance et une flexibilité inégalées pour les workflows avancés.

Prochaines étapes :

  1. Installez l’outil adapté à votre niveau
  2. Téléchargez un modèle gratuit
  3. Expérimentez avec différents prompts et paramètres
  4. Rejoignez les communautés (Reddit r/StableDiffusion, Discord Civitai)

L’IA locale vous donne un contrôle total sur vos créations. Lancez-vous et explorez les possibilités infinies de la génération d’images !

Retour à la série IA Locale