HiDream-O1-Image : Du prompt au storyboard complet sans aucun outil externe

La génération d’images par IA change de méthode. En effet, les créateurs abandonnent les outils de compression habituels. À la place, le système analyse directement les pixels bruts. Cette rupture technique résume tout le fonctionnement de HiDream-O1-Image.

Le 8 mai 2026, l’entreprise HiDream.ai a publié ce modèle d’imagerie sous une licence libre MIT. Le programme possède 8 milliards de paramètres et rivalise avec des outils plus volumineux. Durant sa phase d’évaluation anonyme, la communauté des développeurs appelait ce projet Peanut. L’algorithme occupe désormais la huitième place du classement mondial sur la plateforme Artificial Analysis. Découvrons les spécificités de son architecture unifiée et ses modalités d’installation pratique.

L’abandon de l’espace latent pour un transformeur unifié

En général, les générateurs d’images classiques s’appuient sur un pipeline à trois composants distincts. Un autoencodeur variationnel (VAE) compresse l’image RVB initiale en données compressées. En parallèle, des encodeurs de texte externes comme CLIP ou T5 convertissent les descriptions en vecteurs. Enfin, un transformeur de diffusion (DiT) effectue une attention croisée pour lier ces deux espaces. Cette superposition engendre régulièrement des erreurs d’interprétation spatiale ou des pertes de détails chromatiques.

HiDream-O1-Image efface totalement cette sédimentation technologique. Il faut savoir que son architecture repose sur le Pixel-level Unified Transformer (UiT). Ce mécanisme traite les fragments de pixels bruts, les jetons textuels et les indicateurs de tâches au sein d’une seule et unique séquence. Le système n’utilisera aucun VAE pour réduire la taille spatiale. Les informations textuelles circulent directement dans le transformeur principal. Cette conception native en pixels supprime les goulots d’étranglement structurels et améliore la fidélité des petits objets. Le contraste est saisissant avec la version précédente. Lancé début 2025, le modèle HiDream-I1 utilisait encore un espace latent traditionnel avec 17 milliards de paramètres.

Une comparaison entre la version complète et la variante Dev

L’organisation met à disposition deux déclinaisons distinctes du modèle à 8 milliards de paramètres. Pour obtenir une image totalement finalisée, la version complète (Full) effectue 50 passes de calcul. Elle s’exécute avec un coefficient de guidage sans classificateur (CFG) fixé à 5,0. Cette configuration garantit la précision maximale du rendu et un respect strict des prompts de l’utilisateur.

À l’inverse, la variante HiDream-O1-Image-Dev emploie une technique de distillation de guidage. L’utilisateur configure le coefficient CFG à 0,0 ou 1,0 et évite ainsi le doublement des calculs. Cette version Dev accélère le traitement de moitié et se contente de 28 étapes d’inférence. Elle n’accepte aucun prompt négatif. Malgré sa taille réduite, cette variante surpasse des modèles nettement plus massifs lors des tests standards. Elle obtient un score de 0,90 sur la suite GenEval dédiée à la composition visuelle. Elle affiche également une note de 89,83 sur DPG-Bench pour le suivi des requêtes denses et surpasse FLUX.2 Dev ou Qwen-Image Max. Sur le benchmark HPSv3 mesurant la préférence humaine, elle atteint 10,37 sur 12, se plaçant devant DALL-E 3.

Les capacités multifonctions et la gestion de la typographie

Le modèle accomplit une grande variété de tâches sans nécessiter de modules complémentaires ou d’adaptateurs LoRA. Il génère des images de manière native jusqu’à une résolution de 2048 × 2048 pixels. Le pipeline n’intègre aucun algorithme d’agrandissement artificiel. Les créateurs configurent librement des formats carrés, des modes paysages en 2560 × 1440 ou des portraits en 1440 × 2560.

L’un des atouts majeurs réside dans la gestion de la typographie multilingue complexe. Le système intègre des paragraphes entiers directement dans la composition visuelle. Il décroche un score de 0,979 pour la langue anglaise et de 0,978 pour le chinois sur LongText-Bench. L’utilisateur peut donc disposer jusqu’à cinq zones de texte indépendantes sur une seule bannière ou affiche publicitaire. De plus, le programme prend en charge l’édition basée sur des instructions textuelles directes comme le retrait d’un accessoire sur une photo. Enfin, la personnalisation guidée par le sujet assure la préservation de l’identité visuelle d’un personnage à travers plusieurs scènes. L’analyse simultanée de deux images de référence ou mais permet de concevoir des storyboards parfaitement cohérents.

L’intégration d’un agent de prompt guidé par le raisonnement

Les invites textuelles brutes manquent souvent de repères spatiaux ou de logique physique. HiDream-O1-Image résout cette anomalie en encapsulant un agent de prompt autonome au sein de sa structure logicielle. Ce module s’appuie sur le modèle de langage Gemma-4-31B-it ou sur n’importe quelle interface de programmation compatible. Avant de démarrer la synthèse visuelle, cet agent transforme la demande initiale de l’utilisateur en un fichier au format JSON.

Ce document structuré contient obligatoirement trois champs distincts. De prime abord, on compte la trace du raisonnement. Elle détaille la logique de l’IA. Ensuite, on a les connaissances implicites résolues. Elle consigne les attributs culturels ou historiques d’un sujet ou d’un vêtement spécifique. Enfin, on cite l’invite affinée. Elle fournit un prompt en anglais avec des directives claires de mise en page. Cette phase de prétraitement méthodique élimine la disparité technique face aux écosystèmes propriétaires. Les utilisateurs exécutent ce composant interchangeable directement sur leur machine locale ou via des serveurs distants.

Le fonctionnement et l’agencement des nœuds dans ComfyUI

L’écosystème ComfyUI prend en charge ce modèle de façon native à partir de sa version v0.21.0 ou des versions de développement publiées après le 12 mai 2026. Cette mise à jour supprime le besoin d’installer des nœuds personnalisés tiers. Le flux de travail se simplifie par rapport aux anciennes méthodes de l’architecture HiDream-I1. L’utilisateur fait appel au nœud élémentaire CheckpointLoaderSimple au lieu de charger un modèle de diffusion et un VAE séparés.

Le fichier unique du point de contrôle renferme la quasi-totalité des poids nécessaires. La sortie du module d’échantillonnage transmet directement des pixels bruts exploitables, éliminant le besoin du nœud VAE Decode. Seul un encodeur textuel externe complémentaire, le fichier gemma4_e4b_it_fp8_scaled.safetensors, reste indispensable dans l’interface. Pour l’inférence de la version Full, les experts recommandent l’échantillonneur dpmpp_2m_sde_gpu ou euler, combiné à 40 ou 60 étapes. Pour la version Dev, le choix s’oriente vers le planificateur lcm avec 25 à 30 étapes. L’activation de l’option Prompt Refiner permet d’optimiser automatiquement l’invite avant la soumission au transformeur.

Exigences matérielles et formats de quantification disponibles

Le déploiement en local requiert impérativement un processeur graphique doté de la technologie NVIDIA CUDA. Les architectures de type Ampere ou supérieures garantissent un fonctionnement fluide. Les ingénieurs recommandent vivement l’installation de la bibliothèque logicielle flash-attn pour accélérer le traitement de l’attention. En cas d’apparition d’artéfacts de grille ou de quadrillage, le nœud expérimental HiDreamO1PatchSeamSmoothing permet de l’atténuer en lissant les raccords de pixels.

L’équipe propose plusieurs formats de compression pour adapter le modèle à votre mémoire vidéo :

Format FP8 (Version Full) : Ce fichier s’appelle hidream_o1_image_fp8_scaled.safetensors et demande environ 12 Go de VRAM. Il offre le meilleur compromis pour la majorité des configurations graphiques.
Format MXFP8 (Version Full) : Nommé hidream_o1_image_mxfp8.safetensors, ce format plus léger requiert environ 10 Go de VRAM. Il cible les utilisateurs limités par leur matériel.
Format BF16 (Version Full) : Le fichier hidream_o1_image_bf16.safetensors préserve la précision brute mais exige au moins 25 Go de VRAM.
Format FP8 (Version Dev) : Intitulé hidream_o1_image_dev_fp8_scaled.safetensors, cette option optimisée pour la variante distillée nécessite également environ 12 Go de VRAM.

Le format FP8 s’impose comme la solution recommandée pour l’essentiel des configurations matérielles personnelles. Les fichiers officiels se trouvent sur les plateformes GitHub et Hugging Face. La licence MIT assure une exploitation commerciale totalement libre de droits. Enfin, des plateformes cloud telles que fal.ai ou Comfy Cloud déploient le modèle pour un essai direct via un navigateur web.