सच कहूँ तो — जब मैंने पहली बार Stable Diffusion आज़माया था, तो यह मुझे काफी जटिल लगा था। लेकिन जैसे ही मैंने इसकी लर्निंग कर्व पार की, कोई दूसरा टूल इसकी बराबरी नहीं कर सका। 2026 में यह सबसे शक्तिशाली मुफ़्त AI इमेज जनरेटर है: असीमित जनरेशन, शून्य लागत, हज़ारों कम्युनिटी मॉडल, और पूरी पाइपलाइन पर पूर्ण नियंत्रण। Midjourney और DALL-E पॉलिश्ड और आसान ज़रूर हैं, लेकिन Stable Diffusion वो काम करता है जो वे नहीं कर सकते — कस्टम कैरेक्टर, ब्रांडेड स्टाइल, बैच प्रोसेसिंग, एडवांस्ड इनपेंटिंग, और भी बहुत कुछ। हालाँकि इसका प्रॉम्प्ट सिस्टम दूसरे टूल्स से बिल्कुल अलग है, और यही बात लोगों को उलझाती है। यहाँ वो सब कुछ है जो मैंने SD प्रॉम्प्ट में महारत हासिल करते हुए सीखा है — बेसिक सिंटैक्स से लेकर उन एडवांस्ड तकनीकों तक जो मैं रोज़ इस्तेमाल करता हूँ।
Stable Diffusion प्रॉम्प्ट एक वेटेड सिस्टम का उपयोग करते हैं जिसमें पैरेंथेसिस के ज़रिए आप यह तय कर सकते हैं कि हर एलिमेंट का फ़ाइनल इमेज पर कितना प्रभाव पड़े। सिंटैक्स "(beautiful:1.3)" का मतलब है कि "beautiful" का वज़न 1.3x बढ़ जाता है — यानी मॉडल उस कॉन्सेप्ट पर 30% ज़्यादा ध्यान देता है। आप कई वेटेड टर्म एक साथ जोड़ सकते हैं: "(cinematic lighting:1.4), (shallow depth of field:1.2), masterpiece, best quality" — इससे आप बारीकी से तय कर सकते हैं कि कम्पोज़िशन में हर एलिमेंट का कितना महत्व हो। डिफ़ॉल्ट वज़न 1.0 होता है। 1.0 से ऊपर के मान ज़ोर बढ़ाते हैं, नीचे के मान घटाते हैं। व्यावहारिक रेंज 0.5 से 1.5 है — 1.5 से आगे जाने पर अक्सर आर्टिफैक्ट और ओवरसैचुरेशन आ जाती है। त्वरित वज़न समायोजन के लिए नेस्टेड पैरेंथेसिस भी इस्तेमाल कर सकते हैं: ((keyword)) का मतलब (keyword:1.21) है, और (((keyword))) का मतलब (keyword:1.33) है। Stable Diffusion में शब्दों का क्रम मायने रखता है — प्रॉम्प्ट की शुरुआत में आने वाले टर्म पर मॉडल ज़्यादा ध्यान देता है। इसलिए सबसे ज़रूरी कॉन्सेप्ट हमेशा पहले रखें।
Stable Diffusion में नेगेटिव प्रॉम्प्ट उतने ही ज़रूरी हैं जितने पॉज़िटिव — बल्कि किसी भी दूसरे टूल की तुलना में यहाँ ये और भी अहम हैं। ये मॉडल को बताते हैं कि क्या बिल्कुल नहीं चाहिए, और आम AI आर्टिफैक्ट को हटाकर रिज़ल्ट को काफी बेहतर बना देते हैं। हमेशा इस यूनिवर्सल नेगेटिव प्रॉम्प्ट से शुरू करें: "worst quality, low quality, blurry, deformed, mutated, extra limbs, bad anatomy, bad hands, missing fingers, extra fingers, watermark, text, signature, ugly, disfigured, jpeg artifacts, out of frame, cropped।" यह एक लाइन Stable Diffusion की 80% आम समस्याओं को दूर कर देती है। पोर्ट्रेट के लिए खास तौर पर यह जोड़ें: "cross-eyed, asymmetric eyes, bad facial proportions, unnatural skin, plastic skin, overexposed face, deformed iris, bad teeth, fused fingers, too many fingers, long nails।" फ़ोटोरियलिस्टिक काम के लिए, मॉडल को इलस्ट्रेशन की तरफ जाने से रोकने के लिए स्टाइल एक्सक्लूज़न जोड़ें: "painting, drawing, illustration, cartoon, anime, 3D render, CGI, sketch।" सबसे ज़रूरी नेगेटिव को वेट दें: "(bad hands:1.4), (deformed:1.3), (blurry:1.2)" — इससे ये एलिमेंट मज़बूती से दबाए जाते हैं।
कई मामलों में चेकपॉइंट मॉडल प्रॉम्प्ट से भी ज़्यादा मायने रखता है। चेकपॉइंट एक बेस मॉडल फ़ाइल होती है (आमतौर पर 2-7 GB) जो सभी जनरेट इमेज की बुनियादी विज़ुअल स्टाइल तय करती है। फ़ोटोरियलिज़्म के लिए RealVisXL या JuggernautXL इस्तेमाल करें — ये चेकपॉइंट हाई-क्वालिटी फ़ोटोग्राफ़ पर फ़ाइन-ट्यून किए गए हैं और रियलिस्टिक स्किन टेक्सचर, सटीक लाइट फ़िज़िक्स और नेचुरल कलर साइंस वाली इमेज बनाते हैं। एनिमे और इलस्ट्रेशन के लिए Anything V5, CounterfeitXL, या AnimagineXL 3.1 इस्तेमाल करें — ये सही सेल शेडिंग और एक्सप्रेसिव कैरेक्टर डिज़ाइन के साथ क्लीन, वाइब्रेंट एनिमे आर्ट बनाते हैं। आर्टिस्टिक और क्रिएटिव स्टाइल के लिए DreamShaper फ़ोटोरियलिज़्म और फ़ैंटेसी एलिमेंट को मिलाने में बेहतरीन है। जनरल-पर्पज़ SDXL काम के लिए, एक अच्छे रिफ़ाइनर के साथ बेस SDXL मॉडल शानदार नतीजे देता है। चेकपॉइंट CivitAI (civitai.com) या Hugging Face से मुफ़्त में डाउनलोड करें। एक ही प्रॉम्प्ट दो अलग-अलग चेकपॉइंट पर बिल्कुल अलग नतीजे दे सकता है, इसलिए चेकपॉइंट के साथ प्रयोग करना उतना ही ज़रूरी है जितना प्रॉम्प्ट टेक्स्ट को बेहतर बनाना।
LoRA (Low-Rank Adaptation) मॉडल छोटी ऐड-ऑन फ़ाइलें होती हैं (10-200 MB) जो पूरे मॉडल को बदले बिना चेकपॉइंट की इमेज जनरेशन को बदल देती हैं। ये प्रोफ़ेशनल Stable Diffusion यूज़र्स का सीक्रेट हथियार हैं। किसी खास आर्ट स्टाइल में जनरेट करना है? उस स्टाइल का LoRA डाउनलोड करें। दर्जनों इमेज में एक जैसे कैरेक्टर चाहिए? 10-20 रेफ़रेंस इमेज पर LoRA ट्रेन करें। कोई खास कपड़ा, पोज़ स्टाइल, या विज़ुअल इफ़ेक्ट चाहिए? CivitAI पर उसके लिए शायद कोई LoRA ज़रूर मिलेगा। Automatic1111 में LoRA इस्तेमाल करने के लिए, .safetensors फ़ाइल को अपने models/Lora फ़ोल्डर में रखें और प्रॉम्प्ट में `
` जोड़ें। नंबर (0.7) LoRA का प्रभाव नियंत्रित करता है — 0.7 से शुरू करें और ज़रूरत के हिसाब से ऊपर-नीचे करें। ComfyUI में, चेकपॉइंट और CLIP एनकोडर के बीच एक LoRA Loader नोड इस्तेमाल करें। कई LoRA को मिलाकर कंबाइंड इफ़ेक्ट पा सकते हैं: एक स्टाइल LoRA + एक कैरेक्टर LoRA + एक डिटेल LoRA मिलकर बेहद खास नतीजे दे सकते हैं।
बेसिक txt2img से आगे, Stable Diffusion कई एडवांस्ड तकनीकें देता है जो प्रोफ़ेशनल-ग्रेड आउटपुट देती हैं।
img2img आपको किसी मौजूदा इमेज को शुरुआती बिंदु के रूप में इस्तेमाल करने और टेक्स्ट प्रॉम्प्ट से जनरेशन को गाइड करने देता है — AI-जनरेटेड इमेज को रिफ़ाइन करने, असली फ़ोटो को ट्रांसफ़ॉर्म करने और किसी खास विज़न की तरफ बढ़ने के लिए बेहतरीन। Denoising strength 0.3 (हल्के बदलाव, ओरिजिनल के करीब) से 0.8 (नाटकीय बदलाव) के बीच रखें।
ControlNet रेफ़रेंस इमेज पर जनरेशन को कंडीशन करके पोज़, एज, डेप्थ और कम्पोज़िशन पर सटीक नियंत्रण देता है। OpenPose ControlNet रेफ़रेंस फ़ोटो से बॉडी पोज़ स्केलेटन निकालता है। Canny Edge रेफ़रेंस की स्ट्रक्चरल आउटलाइन बनाए रखता है। Depth maps आर्किटेक्चर और लैंडस्केप के लिए स्पेशियल रिलेशनशिप बनाए रखते हैं।
Adetailer (After Detailer) आउटपुट में चेहरों को अपने आप डिटेक्ट करके रीजनरेट करता है, जो Stable Diffusion की सबसे आम समस्या — विकृत या असंगत चेहरे — को ठीक करता है।
Ultimate SD Upscale ComfyUI में जनरेटेड इमेज को VRAM खत्म हुए बिना 4K+ रेज़ोल्यूशन तक टाइल और अपस्केल करता है।
Regional Prompter आपको इमेज के अलग-अलग हिस्सों में अलग-अलग प्रॉम्प्ट असाइन करने देता है — बाईं तरफ "cityscape at night," दाईं तरफ "ocean at sunset" — क्रिएटिव कम्पोज़िट इफ़ेक्ट के लिए।
यहाँ आम उपयोग के लिए आज़माए हुए प्रॉम्प्ट टेम्पलेट दिए गए हैं।
फ़ोटोरियलिस्टिक पोर्ट्रेट: "(photorealistic:1.3), portrait of a [description], [lighting], [camera] [lens], shallow depth of field, raw photo, natural skin texture. Negative: painting, cartoon, anime, deformed, ugly, blurry."
एनिमे कैरेक्टर: "masterpiece, best quality, 1girl/1boy, [description], [pose], [background], anime style, cel shading, detailed. Negative: worst quality, low quality, bad anatomy, extra limbs, blurry."
प्रोडक्ट शॉट: "(commercial product photography:1.3), [product] on [surface], [lighting], clean composition, sharp focus, 8K detail. Negative: blurry, watermark, text, people, busy background."
फ़ैंटेसी लैंडस्केप: "(concept art:1.2), epic [landscape description], volumetric lighting, dramatic sky, detailed environment, matte painting style. Negative: low quality, blurry, text, watermark." PromptSpace के सभी प्रॉम्प्ट Stable Diffusion के साथ काम करते हैं — बस Midjourney-स्पेसिफ़िक पैरामीटर जैसे --ar और --v हटाएँ, उचित वेट जोड़ें, और हमारे सुझाए नेगेटिव प्रॉम्प्ट शामिल करें। हज़ारों Stable Diffusion-रेडी प्रॉम्प्ट के लिए हमारी लाइब्रेरी promptspace.in पर ब्राउज़ करें।