सच बात करें तो: बेस Stable Diffusion मॉडल्स बेहद शक्तिशाली हैं, लेकिन वे आपको वह एक खास लुक कभी नहीं दे पाएंगे जिसकी आप तलाश में हैं। LoRAs ने मेरे लिए पूरा खेल बदल दिया। ये छोटी ऐड-ऑन फाइलें (आमतौर पर 10-200 MB) Stable Diffusion और FLUX के इमेज जनरेशन के तरीके को बदल देती हैं — जिससे आप खास आर्ट स्टाइल, एक जैसे दिखने वाले कैरेक्टर, ब्रांडेड एस्थेटिक्स और अनोखे विजुअल इफेक्ट हासिल कर सकते हैं — और यह सब बिना किसी पूरे मॉडल को स्क्रैच से ट्रेन किए। इन्हें अपने AI आर्ट टूल के प्लगइन्स समझें: हल्के, एक साथ इस्तेमाल करने योग्य, और अनंत रूप से कस्टमाइज़ेबल। अगर आप AI आर्ट को गंभीरता से लेते हैं और जेनेरिक आउटपुट से आगे बढ़ना चाहते हैं, तो LoRAs आपके वर्कफ़्लो के लिए बिल्कुल ज़रूरी हैं।
Stable Diffusion या FLUX चेकपॉइंट एक बड़ा न्यूरल नेटवर्क मॉडल होता है (SD के लिए 2-7 GB, FLUX के लिए 12-24 GB) जिसे लाखों इमेजेस पर ट्रेन किया गया है। इस बेस मॉडल ने विजुअल कॉन्सेप्ट्स की एक विशाल रेंज सीखी है — फोटोरियलिज्म से लेकर इलस्ट्रेशन तक, लैंडस्केप से लेकर पोर्ट्रेट तक। एक LoRA एक बहुत छोटी फाइल होती है (आमतौर पर 10-200 MB) जो बेस मॉडल के न्यूरल नेटवर्क की खास लेयर्स में टार्गेटेड बदलाव करती है। पूरे मॉडल को दोबारा ट्रेन करने के बजाय (जिसमें हजारों डॉलर का कंप्यूट लगता है), एक LoRA लो-रैंक डीकम्पोजिशन नामक एक चतुर गणितीय तकनीक का उपयोग करके केवल सबसे प्रासंगिक पैरामीटर्स को बदलती है।
आर्टिस्ट वाली उपमा
बेस चेकपॉइंट को एक बहुमुखी कलाकार समझें जो कई स्टाइल में पेंट कर सकता है। एक LoRA एक विशेष निर्देश-सेट है — "अब से, सब कुछ इस खास वॉटरकलर तकनीक में पेंट करो" या "हर चेहरे को इस खास व्यक्ति जैसा बनाओ।" कलाकार की मूल क्षमताएं बरकरार रहती हैं, लेकिन उनका आउटपुट एक खास दिशा में मुड़ जाता है।
कई LoRAs को एक साथ इस्तेमाल करना (Stacking)
LoRAs की सबसे शक्तिशाली खूबियों में से एक यह है कि इन्हें स्टैक किया जा सकता है। आप एक स्टाइल LoRA (जैसे, "विंटेज फिल्म फोटोग्राफी") को एक कॉन्सेप्ट LoRA (जैसे, "क्रिस्टल से बना") और एक डिटेल LoRA (जैसे, "जटिल ज्वेलरी") के साथ एक ही जनरेशन में मिला सकते हैं। हर LoRA में एक वेट पैरामीटर होता है जो यह नियंत्रित करता है कि वह आउटपुट को कितना प्रभावित करे, जिससे आप कई इफेक्ट्स को संतुलित कर सकते हैं। आमतौर पर 2-4 LoRAs स्टैक किए जाते हैं, हालांकि सावधानीपूर्वक वेट मैनेजमेंट के साथ और भी ज़्यादा संभव हैं।
LoRA बनाम अन्य फाइन-ट्यूनिंग तरीके
-
फुल फाइन-ट्यून: पूरे मॉडल को दोबारा ट्रेन करता है। सबसे अच्छी क्वालिटी देता है लेकिन सैकड़ों डॉलर का कंप्यूट खर्च होता है और मल्टी-गीगाबाइट फाइल बनती है। ज़्यादातर कामों के लिए ज़रूरत से ज़्यादा।
-
DreamBooth: चेकपॉइंट में एक नया कॉन्सेप्ट एम्बेड करके एक सब्जेक्ट-स्पेसिफिक मॉडल ट्रेन करता है। खास सब्जेक्ट्स के लिए अच्छा है लेकिन बड़ी फाइलें बनाता है और मिलाना मुश्किल होता है।
-
Textual Inversion (Embeddings): एक नया टेक्स्ट टोकन सीखता है जो एक कॉन्सेप्ट को दर्शाता है। बहुत छोटी फाइलें लेकिन LoRAs की तुलना में सीमित क्षमता।
-
LoRA: सबसे सही विकल्प — छोटी फाइलें, तेज़ ट्रेनिंग, स्टैकेबल, और स्टाइल, कैरेक्टर व जटिल कॉन्सेप्ट सीखने में सक्षम। कस्टमाइज़ेशन के लिए कम्युनिटी स्टैंडर्ड।
CivitAI (civitai.com)
CivitAI अब तक का सबसे बड़ा LoRA रिपॉजिटरी है, जहाँ हर स्टाइल, कैरेक्टर और कॉन्सेप्ट के लिए हजारों फ्री LoRAs मौजूद हैं। साइट आपको मॉडल टाइप (LoRA, LyCORIS, आदि), बेस मॉडल कम्पैटिबिलिटी (SDXL, SD 1.5, Pony, FLUX), और कैटेगरी (स्टाइल, कैरेक्टर, क्लोदिंग, कॉन्सेप्ट) के हिसाब से फ़िल्टर करने देती है। हर LoRA लिस्टिंग में सैंपल इमेजेस, रिकमेंडेड वेट्स, ट्रिगर वर्ड्स और यूज़र रिव्यू शामिल होते हैं। अपने चेकपॉइंट के साथ कम्पैटिबिलिटी सुनिश्चित करने के लिए हमेशा "base model" फील्ड जांचें।
Hugging Face
Hugging Face पर कई LoRAs होस्ट हैं, खासकर मॉडल क्रिएटर्स और रिसर्च टीमों के आधिकारिक LoRAs। क्वालिटी आमतौर पर बहुत अच्छी होती है लेकिन CivitAI की तुलना में चयन कम है। FLUX LoRAs Hugging Face पर विशेष रूप से अच्छी तरह उपलब्ध हैं। "diffusers" कैटेगरी में देखें और LoRA से फ़िल्टर करें।
PromptSpace Gallery
PromptSpace AI Art गैलरी में लोकप्रिय LoRAs से बनाई गई आर्टवर्क्स दिखाई जाती हैं, ताकि आप कुछ भी डाउनलोड करने से पहले असली नतीजे देख सकें। कई गैलरी एंट्री में इस्तेमाल किए गए खास LoRA का नाम, वेट और ट्रिगर वर्ड्स शामिल होते हैं, जिससे नतीजों को दोहराना आसान हो जाता है।
क्या देखें
किसी LoRA का मूल्यांकन करते समय जांचें: सैंपल इमेजेस की संख्या (ज़्यादा बेहतर है), क्या क्रिएटर ने अलग-अलग वेट्स पर नतीजे दिखाए हैं, आपके बेस मॉडल के साथ कम्पैटिबिलिटी, फाइल साइज़ (बड़ी फाइल का मतलब आमतौर पर ज़्यादा डिटेल सीखी गई है), और कम्युनिटी रेटिंग्स। केवल 1-2 सैंपल इमेजेस वाले या बिना ट्रिगर वर्ड्स वाले LoRAs से बचें।
Automatic1111 (AUTOMATIC1111 Web UI) में
1.
डाउनलोड करें LoRA फाइल (.safetensors फाइल होगी)।
2.
रखें इसे अपने Stable Diffusion इंस्टॉलेशन के `models/Lora` फोल्डर में।
3.
रिफ्रेश करें UI में LoRA लिस्ट (LoRA ड्रॉपडाउन के बगल में रिफ्रेश बटन क्लिक करें, या UI रीस्टार्ट करें)।
4.
प्रॉम्प्ट में जोड़ें इस सिंटैक्स का उपयोग करके: `
`। उदाहरण के लिए: ``।
5. ट्रिगर वर्ड्स शामिल करें अगर LoRA में हैं। ये वे खास शब्द हैं जिन पर प्रतिक्रिया देने के लिए LoRA को ट्रेन किया गया है — LoRA के डिस्क्रिप्शन पेज पर देखें।
6. वेट एडजस्ट करें — 0.7 से शुरू करें और नतीजों के आधार पर बढ़ाएं या घटाएं। बहुत ज़्यादा (1.0 से ऊपर) डिस्टॉर्शन पैदा कर सकता है; बहुत कम (0.3 से नीचे) का कोई दिखाई देने वाला असर नहीं हो सकता।
ComfyUI में
1. फाइल रखें अपने `models/loras` फोल्डर में।
2. एक LoRA Loader नोड जोड़ें अपने वर्कफ़्लो में।
3. कनेक्ट करें इसे अपने चेकपॉइंट लोडर और CLIP/मॉडल आउटपुट के बीच। LoRA Loader मॉडल और CLIP इनपुट लेता है और दोनों के मॉडिफाइड वर्शन आउटपुट करता है।
4. LoRA चुनें नोड में ड्रॉपडाउन से।
5. स्ट्रेंथ सेट करें — ComfyUI मॉडल स्ट्रेंथ और CLIP स्ट्रेंथ को अलग करता है, जिससे आपको ज़्यादा बारीक नियंत्रण मिलता है। दोनों को 0.7 से शुरू करें।
Forge (SD Forge) में
Forge Automatic1111 जैसा ही सिंटैक्स इस्तेमाल करता है: प्रॉम्प्ट में ``। Forge अक्सर कम VRAM उपयोग के साथ LoRAs को ज़्यादा कुशलता से हैंडल करता है।
LoRAs इस्तेमाल करने के प्रो टिप्स
- हमेशा LoRA डिस्क्रिप्शन पढ़ें रिकमेंडेड वेट्स और ट्रिगर वर्ड्स के लिए — क्रिएटर ने बेहतरीन नतीजों के लिए इन वैल्यू को टेस्ट किया है।
- कई वेट्स पर टेस्ट करें (0.3, 0.5, 0.7, 1.0) अपने खास यूज़ केस के लिए सबसे सही वेट खोजने के लिए।
- LoRAs स्टैक करते समय, अलग-अलग वेट्स कम करें। अगर 3 LoRAs इस्तेमाल कर रहे हैं, तो ओवर-सैचुरेशन से बचने के लिए 0.7 की बजाय 0.5 प्रत्येक आज़माएं।
- कुछ LoRAs आपस में टकराते हैं — दो स्टाइल LoRAs एक-दूसरे से लड़ सकते हैं। अगर नतीजे धुंधले लगें, तो एक LoRA का वेट कम करें या उसे हटा दें।
स्टाइल LoRAs
स्टाइल LoRAs सबसे लोकप्रिय कैटेगरी हैं। ये खास आर्ट स्टाइल, माध्यम या विजुअल एस्थेटिक्स की नकल करते हैं। उदाहरणों में वॉटरकलर पेंटिंग, पिक्सेल आर्ट, रेट्रो 1990s एनिमे, फिल्म नॉयर फोटोग्राफी, दिखाई देने वाले ब्रशस्ट्रोक के साथ ऑयल पेंटिंग, और कॉमिक बुक आर्ट शामिल हैं। ये अविश्वसनीय रूप से बहुमुखी हैं — किसी भी सब्जेक्ट पर स्टाइल LoRA लगाएं और यह पूरे आउटपुट को बदल देता है।
कैरेक्टर LoRAs
कैरेक्टर LoRAs आपको अलग-अलग पोज़, आउटफिट और सीन में एक जैसा कैरेक्टर चेहरा और बॉडी जनरेट करने देते हैं। यह कॉमिक सीरीज़, विजुअल नॉवेल, स्टोरीबोर्ड, या किसी भी ऐसे प्रोजेक्ट के लिए ज़रूरी है जिसमें कैरेक्टर कंसिस्टेंसी चाहिए। इन्हें किसी खास कैरेक्टर या व्यक्ति की 10-30 इमेजेस पर ट्रेन किया जाता है और ये उल्लेखनीय सटीकता के साथ समानता को दोहरा सकते हैं।
क्लोदिंग और फैशन LoRAs
ये विशेष LoRAs खास फैशन आइटम, यूनिफॉर्म, कॉस्ट्यूम और एक्सेसरीज़ जोड़ते हैं। ऐतिहासिक रूप से सटीक मध्यकालीन कवच से लेकर खास आधुनिक फैशन ब्रांड तक, क्लोदिंग LoRAs वह विजुअल प्रामाणिकता जोड़ते हैं जो जेनेरिक प्रॉम्प्ट हासिल नहीं कर सकते।
कॉन्सेप्ट LoRAs
कॉन्सेप्ट LoRAs मॉडल को अमूर्त विजुअल आइडिया सिखाते हैं: "कांच से बना," "होलोग्राफिक इरिडेसेंट," "बायोल्यूमिनेसेंट ग्लो," "फूलों से बना," "लिक्विड मेटल," "पेपर कटआउट स्टाइल।" ये चौंकाने वाली, सरियलिस्ट इमेजेस बनाते हैं और अन्य LoRA टाइप्स के साथ खूबसूरती से मिलते हैं।
डिटेल एन्हांसमेंट LoRAs
ये LoRAs इमेज क्वालिटी के खास पहलुओं को बेहतर बनाते हैं: "जटिल विस्तृत ज्वेलरी," "रियलिस्टिक हैंड एनाटॉमी," "कैचलाइट के साथ विस्तृत आंखें," "रियलिस्टिक स्किन टेक्सचर।" इन्हें अक्सर कमज़ोर क्षेत्रों को बेहतर बनाने के लिए सूक्ष्म जोड़ के रूप में (वेट 0.3-0.5) इस्तेमाल किया जाता है, बिना समग्र स्टाइल बदले।
कस्टम LoRA ट्रेन करना उतना मुश्किल नहीं है जितना ज़्यादातर लोग सोचते हैं। सही टूल्स और 10-20 रेफरेंस इमेजेस के साथ, आप एक घंटे से कम में प्रोडक्शन-क्वालिटी LoRA बना सकते हैं।
आपको क्या चाहिए
-
GPU: NVIDIA GPU जिसमें 8+ GB VRAM हो (12 GB रिकमेंडेड)। RTX 3060 12 GB अच्छा काम करता है।
-
ट्रेनिंग इमेजेस: स्टाइल LoRAs के लिए 10-20 हाई-क्वालिटी इमेजेस, कैरेक्टर LoRAs के लिए 15-30। विविध एंगल और लाइटिंग कंडीशन ज़्यादा बहुमुखी LoRAs बनाते हैं।
-
ट्रेनिंग सॉफ्टवेयर: Kohya_ss (कम्युनिटी स्टैंडर्ड, फ्री, ओपन-सोर्स) या CivitAI का ऑनलाइन ट्रेनर (लोकल GPU की ज़रूरत नहीं)।
-
कैप्शन: हर ट्रेनिंग इमेज का टेक्स्ट विवरण। BLIP या WD Tagger जैसे ऑटो-कैप्शनिंग टूल्स इन्हें अपने आप जनरेट कर सकते हैं।
स्टेप-बाय-स्टेप ट्रेनिंग प्रक्रिया
1.
इमेजेस इकट्ठा करें और तैयार करें। एक जैसे रेज़ोल्यूशन पर क्रॉप करें (SD 1.5 के लिए 512×512, SDXL के लिए 1024×1024)। वॉटरमार्क हटाएं और एक जैसी क्वालिटी सुनिश्चित करें।
2.
कैप्शन जनरेट करें। ऑटो-कैप्शनिंग इस्तेमाल करें, फिर सटीकता के लिए मैन्युअली रिव्यू और एडिट करें। अच्छे कैप्शन LoRA क्वालिटी को नाटकीय रूप से बेहतर बनाते हैं।
3.
ट्रेनिंग पैरामीटर्स कॉन्फ़िगर करें। मुख्य सेटिंग्स: लर्निंग रेट (स्टाइल के लिए 1e-4, कैरेक्टर के लिए 5e-5), ट्रेनिंग स्टेप्स (ज़्यादातर LoRAs के लिए 1,500-3,000), बैच साइज़ (8 GB VRAM के लिए 1-2, 12 GB+ के लिए 4+), और नेटवर्क रैंक/डाइमेंशन (ज़्यादातर यूज़ केस के लिए 32-64, जटिल स्टाइल के लिए 128)।
4.
ट्रेन करें। आपके GPU और सेटिंग्स के आधार पर ट्रेनिंग में 15-60 मिनट लगते हैं।
5.
टेस्ट करें। क्वालिटी और फ्लेक्सिबिलिटी का मूल्यांकन करने के लिए अलग-अलग वेट्स (0.3, 0.5, 0.7, 1.0) और विविध प्रॉम्प्ट के साथ इमेजेस जनरेट करें।
कस्टम LoRAs के सामान्य उपयोग
-
ब्रांड कंसिस्टेंसी: एक जैसी मार्केटिंग मटेरियल के लिए अपने ब्रांड का विजुअल स्टाइल ट्रेन करें
-
कैरेक्टर क्रिएशन: कॉमिक्स, विजुअल नॉवेल, या सोशल मीडिया सीरीज़ के लिए एक जैसा कैरेक्टर बनाएं
-
प्रोडक्ट फोटोग्राफी: एक जैसे, कस्टमाइज़ेबल प्रोडक्ट शॉट्स के लिए प्रोडक्ट फोटो पर ट्रेन करें
-
पर्सनल स्टाइल: अपने अनोखे आर्टिस्टिक विज़न को एक पुन: उपयोग करने योग्य, शेयर करने योग्य फॉर्मेट में कैप्चर करें
यह सत्यापित करने के लिए कि आपका LoRA अलग-अलग परिदृश्यों और विषयों में अच्छा काम करता है, PromptSpace प्रॉम्प्ट्स को टेस्ट इनपुट के रूप में इस्तेमाल करें — एक अच्छी तरह ट्रेन किया गया LoRA खास प्रॉम्प्ट विषय की परवाह किए बिना अच्छे नतीजे देना चाहिए।