Seré honesto: Stable Diffusion me intimidó cuando lo probé por primera vez. Pero una vez que superé la curva de aprendizaje, nada más se le compara. Es el generador de imágenes con IA gratuito más potente de 2026: generaciones ilimitadas, costo cero, miles de modelos de la comunidad y control total sobre todo el pipeline. Midjourney y DALL-E son pulidos y fáciles de usar, claro, pero Stable Diffusion te permite hacer cosas que ellos simplemente no pueden: personajes personalizados, estilos de marca, procesamiento por lotes, inpainting avanzado y mucho más. Sin embargo, el sistema de prompts es fundamentalmente diferente al de otras herramientas, y eso es lo que confunde a la gente. Aquí te cuento todo lo que he aprendido sobre cómo dominar los prompts de SD, desde la sintaxis básica hasta las técnicas avanzadas que uso a diario.
Los prompts de Stable Diffusion utilizan un sistema de pesos con paréntesis que te da un control preciso sobre cuánta influencia tiene cada elemento en la imagen final. La sintaxis "(beautiful:1.3)" aumenta el peso de "beautiful" en 1.3x, lo que significa que el modelo presta un 30% más de atención a ese concepto. Puedes combinar múltiples términos con peso: "(cinematic lighting:1.4), (shallow depth of field:1.2), masterpiece, best quality" para ajustar con precisión cuánto importa cada elemento en la composición. El peso predeterminado es 1.0. Los valores superiores a 1.0 aumentan el énfasis; los inferiores a 1.0 lo reducen. El rango práctico es de 0.5 a 1.5: superar 1.5 suele generar artefactos y sobreexposición de color. También puedes usar paréntesis anidados para ajustes rápidos de peso: ((keyword)) equivale a (keyword:1.21), y (((keyword))) equivale a (keyword:1.33). El orden de las palabras importa en Stable Diffusion: los términos al inicio del prompt reciben más atención que los del final. Coloca siempre tus conceptos más importantes primero.
Los prompts negativos son igual de importantes en Stable Diffusion, y podría decirse que más que en cualquier otra herramienta. Le indican al modelo qué debe evitar activamente, y limpian drásticamente los resultados al eliminar los artefactos de IA más comunes. Empieza siempre con este prompt negativo universal: "worst quality, low quality, blurry, deformed, mutated, extra limbs, bad anatomy, bad hands, missing fingers, extra fingers, watermark, text, signature, ugly, disfigured, jpeg artifacts, out of frame, cropped." Esta sola línea elimina el 80% de los problemas más frecuentes en Stable Diffusion. Para retratos en particular, añade: "cross-eyed, asymmetric eyes, bad facial proportions, unnatural skin, plastic skin, overexposed face, deformed iris, bad teeth, fused fingers, too many fingers, long nails." Para trabajo fotorrealista, añade exclusiones de estilo para evitar que el modelo derive hacia la ilustración: "painting, drawing, illustration, cartoon, anime, 3D render, CGI, sketch." Asigna peso a tus negativos más críticos: "(bad hands:1.4), (deformed:1.3), (blurry:1.2)" garantiza que estos elementos queden fuertemente suprimidos.
El modelo checkpoint importa más que el propio prompt en muchos casos. Un checkpoint es el archivo base del modelo (normalmente entre 2 y 7 GB) que determina el estilo visual fundamental de todas las imágenes generadas. Para fotorrealismo, usa RealVisXL o JuggernautXL: estos checkpoints han sido ajustados con fotografías de alta calidad y producen imágenes con textura de piel realista, física de luz precisa y ciencia del color natural. Para anime e ilustración, usa Anything V5, CounterfeitXL o AnimagineXL 3.1: generan arte anime limpio y vibrante con cel shading adecuado y diseño de personajes expresivo. Para estilos artísticos y creativos, DreamShaper destaca al combinar fotorrealismo con elementos de fantasía. Para trabajo general con SDXL, el modelo base SDXL con un buen refiner produce resultados excelentes. Descarga los checkpoints desde CivitAI (civitai.com) o Hugging Face: ambos son gratuitos. El mismo prompt en dos checkpoints diferentes puede producir resultados radicalmente distintos, así que experimentar con checkpoints es tan importante como refinar el texto de tu prompt.
Los modelos LoRA (Low-Rank Adaptation) son archivos complementarios pequeños (de 10 a 200 MB) que modifican cómo un checkpoint genera imágenes sin reemplazar el modelo completo. Son el arma secreta de los usuarios profesionales de Stable Diffusion. ¿Quieres generar en un estilo artístico específico? Descarga el LoRA de ese estilo. ¿Quieres personajes consistentes en decenas de imágenes? Entrena un LoRA con 10 a 20 imágenes de referencia. ¿Quieres una prenda de ropa específica, un estilo de pose o un efecto visual concreto? Probablemente haya un LoRA para eso en CivitAI. Para usar un LoRA en Automatic1111, coloca el archivo .safetensors en tu carpeta models/Lora y añade
a tu prompt. El número (0.7) controla la influencia del LoRA: empieza en 0.7 y ajusta hacia arriba o hacia abajo según necesites. En ComfyUI, usa un nodo LoRA Loader entre tu checkpoint y los encoders CLIP. Puedes apilar múltiples LoRAs para efectos combinados: un LoRA de estilo + un LoRA de personaje + un LoRA de detalle pueden producir resultados notablemente específicos.
Más allá del txt2img básico, Stable Diffusion ofrece técnicas avanzadas que desbloquean resultados de nivel profesional.
img2img te permite usar una imagen existente como punto de partida y guiar la generación con un prompt de texto: ideal para refinar imágenes generadas por IA, transformar fotos reales e iterar hacia una visión específica. Ajusta la intensidad de denoising entre 0.3 (cambios sutiles, cercanos al original) y 0.8 (transformación dramática).
ControlNet te da un control preciso sobre poses, bordes, profundidad y composición al condicionar la generación en una imagen de referencia. OpenPose ControlNet extrae esqueletos de pose corporal de fotos de referencia. Canny Edge preserva los contornos estructurales de una referencia. Los mapas de profundidad mantienen las relaciones espaciales para arquitectura y paisajes.
Adetailer (After Detailer) detecta y regenera automáticamente los rostros en tu resultado, corrigiendo el artefacto más común de Stable Diffusion: caras distorsionadas o inconsistentes.
Ultimate SD Upscale en ComfyUI divide y escala las imágenes generadas a resolución 4K o superior sin agotar la VRAM.
Regional Prompter te permite asignar diferentes prompts a distintas regiones de la imagen —lado izquierdo "cityscape at night", lado derecho "ocean at sunset"— para efectos compuestos creativos.
Aquí tienes plantillas de prompts probadas para los casos de uso más comunes.
Retrato fotorrealista: "(photorealistic:1.3), portrait of a [descripción], [iluminación], [cámara] [lente], shallow depth of field, raw photo, natural skin texture. Negativo: painting, cartoon, anime, deformed, ugly, blurry."
Personaje anime: "masterpiece, best quality, 1girl/1boy, [descripción], [pose], [fondo], anime style, cel shading, detailed. Negativo: worst quality, low quality, bad anatomy, extra limbs, blurry."
Fotografía de producto: "(commercial product photography:1.3), [producto] on [superficie], [iluminación], clean composition, sharp focus, 8K detail. Negativo: blurry, watermark, text, people, busy background."
Paisaje de fantasía: "(concept art:1.2), epic [descripción del paisaje], volumetric lighting, dramatic sky, detailed environment, matte painting style. Negativo: low quality, blurry, text, watermark." Todos los prompts de PromptSpace funcionan con Stable Diffusion: simplemente elimina los parámetros exclusivos de Midjourney como --ar y --v, añade los pesos adecuados e incluye nuestros prompts negativos recomendados. Explora nuestra biblioteca en promptspace.in para encontrar miles de prompts listos para Stable Diffusion.