Claude Cowork को लोकल मॉडल्स के साथ चलाना चाहते हैं — पूरी तरह मुफ्त, ऑफलाइन, और प्राइवेट? जनवरी 2026 से, Ollama v0.14 नेटिव Anthropic Messages API कम्पैटिबिलिटी के साथ आता है, जिसका मतलब है कि Claude का agentic डेस्कटॉप टूल अब सीधे आपके हार्डवेयर पर चलने वाले ओपन-सोर्स मॉडल्स से बात कर सकता है। न API key। न subscription। न आपका डेटा कहीं बाहर जाएगा।
यह गाइड सब कुछ कवर करती है: इंस्टॉलेशन, कॉन्फ़िगरेशन, मॉडल सिलेक्शन, परफॉर्मेंस बेंचमार्क्स, सीमाएँ, और cloud Claude vs लोकल inference का पूरा तुलना चार्ट। चाहे आप प्राइवेसी को लेकर चिंतित डेवलपर हों या कोई ऐसा व्यक्ति जो शून्य लागत पर अनलिमिटेड Claude Cowork उपयोग चाहता हो — यह 2026 की निश्चित सेटअप गाइड है।
Claude Cowork क्या है?
Claude Cowork Anthropic का agentic डेस्कटॉप टूल है जो Claude Code की क्षमताओं को Claude Desktop में लाता है — कोडिंग से परे knowledge work के लिए। एक-एक करके प्रॉम्प्ट्स का जवाब देने के बजाय, Claude जटिल, मल्टी-स्टेप कार्यों को संभाल सकता है और उन्हें आपकी ओर से एक्ज़ीक्यूट कर सकता है — डॉक्यूमेंट्स फ़ॉर्मैट करना, फ़ाइलें ऑर्गनाइज़ करना, रिसर्च को synthesize करना, और workflows को ऑटोमेट करना।
मुख्य क्षमताएँ
- मल्टी-स्टेप टास्क एक्ज़ीक्यूशन: एक outcome बताइए, दूर हट जाइए, और तैयार काम के साथ वापस आइए
- फ़ाइल सिस्टम एक्सेस: आपके कंप्यूटर पर फ़ाइलें पढ़ना, लिखना, और ऑर्गनाइज़ करना
- शेड्यूल्ड टास्क्स: दोहराए जाने वाले काम को ऑटोमेट करें (केवल cloud फीचर)
- Projects: persistent वर्कस्पेसेस अपनी फ़ाइलों, लिंक्स, instructions, और मेमोरी के साथ
- Plugins: skills, connectors, और sub-agents के साथ कार्यक्षमता बढ़ाएँ
- Computer Use: देखकर, क्लिक करके, और टाइप करके डेस्कटॉप ऐप्स को कंट्रोल करें
Cowork सीधे आपके कंप्यूटर पर एक isolated VM में चलता है, जिससे Claude को उन फ़ाइलों तक एक्सेस मिलती है जिन्हें आप शेयर करना चुनते हैं। कोड sandboxed environments में सुरक्षित रूप से एक्ज़ीक्यूट होता है जबकि Claude आपकी फ़ाइलों में असली बदलाव करता है।
Claude Cowork के साथ लोकल मॉडल्स क्यों इस्तेमाल करें?
Claude Cowork को cloud APIs के साथ चलाने में पैसे लगते हैं और आपका डेटा बाहरी सर्वर्स पर जाता है। यहाँ बताया गया है कि लोकल मॉडल्स कैसे समीकरण बदलते हैं:
| फ़ैक्टर | Cloud Claude | लोकल मॉडल्स |
|---|---|---|
| लागत | $20-200/महीना (Pro/Max प्लान्स) | हार्डवेयर के बाद $0 |
| प्राइवेसी | डेटा Anthropic सर्वर्स पर भेजा जाता है | सब कुछ आपकी मशीन पर रहता है |
| Rate Limits | उपयोग सीमाएँ, खासकर भारी Cowork टास्क्स पर | अनलिमिटेड — जितना चाहें चलाएँ |
| ऑफलाइन | इंटरनेट चाहिए | पूरी तरह ऑफलाइन काम करता है |
| Data Residency | क्रॉस-बॉर्डर ट्रांसफर की चिंताएँ | पूरा GDPR/compliance कंट्रोल |
| स्पीड | 60-80 tokens/sec | 8-25 tokens/sec (हार्डवेयर पर निर्भर) |
tradeoff साफ़ है: लोकल मॉडल्स प्राइवेसी, लागत बचत, और अनलिमिटेड उपयोग के बदले स्पीड कम कर देते हैं। कई workflows के लिए — खासकर sensitive code, proprietary documents, या air-gapped environments से जुड़े — यह tradeoff बिल्कुल सही बैठता है।
आवश्यकताएँ और हार्डवेयर रिक्वायरमेंट्स
Claude Cowork के साथ लोकल मॉडल्स सेट अप करने से पहले, सुनिश्चित करें कि आपका सिस्टम इन आवश्यकताओं को पूरा करता है:
सॉफ़्टवेयर रिक्वायरमेंट्स
- Ollama v0.14.0+ (Anthropic Messages API कम्पैटिबिलिटी के लिए ज़रूरी)
- Claude Code CLI इंस्टॉल करें
curl -fsSL https://claude.ai/install.sh | bashके ज़रिए - macOS 13+, Windows 10+, या Linux (Ubuntu 20.04+ recommended)
हार्डवेयर रिक्वायरमेंट्स
| Tier | हार्डवेयर | बेस्ट मॉडल | अनुभव |
|---|---|---|---|
| न्यूनतम | 16GB RAM (M1/M2) या RTX 3060 12GB | GLM-4.7-Flash (Q4) | सिंगल-फ़ाइल टास्क्स के लिए usable। जटिल ऑपरेशन्स पर धीमा। |
| Recommended | 32GB RAM (M1 Pro/Max) या RTX 4070 Ti 16GB | Qwen3-Coder 30B (Q4) | ज़्यादातर कोडिंग workflows के लिए ठोस। मल्टी-फ़ाइल काम करता है पर धीमा। |
| आदर्श | 64GB+ RAM (M2/M3/M4 Max) या RTX 4090 24GB | Qwen2.5-Coder-32B (Q6) | सबसे बेहतरीन लोकल अनुभव। उच्च quantization, तेज़ throughput। |
स्टेप-बाय-स्टेप सेटअप: Ollama + Claude Code
स्टेप 1: Ollama इंस्टॉल करें
macOS (Homebrew):
brew install ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: ollama.com से डाउनलोड करें
इंस्टॉलेशन वेरिफ़ाई करें:
ollama --version
# Must be v0.14.0 or later
स्टेप 2: एक लोकल मॉडल pull करें
ऐसा मॉडल चुनें जिसमें tool calling support हो (Claude Code के agentic फीचर्स के लिए ज़रूरी):
# Top pick — 30B MoE, only 3B active params, runs on 16GB RAM
ollama pull glm-4.7-flash
# Alternative — strong coding model
ollama pull qwen3-coder
# Budget option for 8GB machines
ollama pull devstral-small-2
स्टेप 3: Claude Code इंस्टॉल करें
macOS/Linux:
curl -fsSL https://claude.ai/install.sh | bash
Windows:
irm https://claude.ai/install.ps1 | iex
स्टेप 4: Claude Code को Ollama से कनेक्ट करें
सबसे तेज़ तरीका — एक कमांड:
ollama launch claude
यह अपने आप ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL सेट कर देता है, और Claude Code को आपके लोकल Ollama instance की ओर पॉइंट करके लॉन्च कर देता है। लिस्ट से अपना मॉडल चुनें और Enter दबाएँ।
Manual तरीका — explicit environment variables:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
# Launch Claude Code
claude
या अपनी shell profile को बदले बिना inline:
ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_BASE_URL=http://localhost:11434 claude
स्टेप 5: कनेक्शन वेरिफ़ाई करें
Claude Code लॉन्च होने के बाद, एक सरल कमांड आज़माएँ:
> Read the current directory and list all files
अगर मॉडल फ़ाइलें पढ़ता है और असली फ़ाइल listings के साथ जवाब देता है (न कि सिर्फ़ यह बताता है कि वह क्या करेगा), तो tool calling सही से काम कर रहा है।
LM Studio के साथ सेटअप
LM Studio लोकल मॉडल्स को मैनेज करने के लिए एक graphical इंटरफ़ेस प्रदान करता है:
- lmstudio.ai से LM Studio डाउनलोड करें
- GLM-4.7-Flash या Qwen3-Coder सर्च करके डाउनलोड करें
- Local Server टैब पर जाएँ → Start Server (default port: 1234)
- Claude Code कॉन्फ़िगर करें:
export ANTHROPIC_AUTH_TOKEN=lm-studio
export ANTHROPIC_BASE_URL=http://localhost:1234
claude
Claude Cowork के लिए बेस्ट लोकल मॉडल्स
| मॉडल | Parameters | Context | Tool Calling | RAM/VRAM ज़रूरी | किसके लिए बेस्ट |
|---|---|---|---|---|---|
| GLM-4.7-Flash ⭐ | 30B MoE (3B active) | 128K | हाँ (79.5%) | ~6.5GB (Q4) | स्पीड + क्षमता का बेहतरीन संतुलन |
| Qwen3-Coder | 30B | 128K | हाँ | ~20GB (Q4) | मज़बूत कोडिंग टास्क्स |
| GPT-OSS:20B | 20B | 32K | हाँ | ~12GB (Q4) | अच्छा general purpose |
| Devstral-Small-2 | 24B | 128K | हाँ | ~16GB (Q4) | कोड-focused टास्क्स |
| Qwen2.5-Coder:32B | 32B | 128K | सीमित | ~24GB (Q4) | जटिल कोडिंग (मज़बूत हार्डवेयर चाहिए) |
शीर्ष recommendation: GLM-4.7-Flash। इसकी mixture-of-experts आर्किटेक्चर का मतलब है कि 30B मॉडल होने के बावजूद प्रति token सिर्फ़ 3B parameters activate होते हैं। यह 128K context और मज़बूत tool-calling क्षमताओं (agent benchmarks पर 79.5%) बनाए रखते हुए सामान्य हार्डवेयर (16GB RAM) पर तेज़ inference में अनुवाद होता है।
Ollama के ज़रिए मुफ्त Cloud Models
लोकली inference नहीं चलाना चाहते? Ollama उदार rate limits के साथ मुफ्त cloud models को भी proxy करता है:
| मॉडल | Context | स्पीड | लागत |
|---|---|---|---|
| qwen3.5:cloud | 128K+ | 30-60 tok/s | मुफ्त (rate limited) |
| glm-5:cloud | 128K+ | 30-60 tok/s | मुफ्त (rate limited) |
| kimi-k2.5:cloud | 128K+ | 30-60 tok/s | मुफ्त (rate limited) |
| qwen3-coder:480b-cloud | 128K+ | 30-60 tok/s | मुफ्त (rate limited) |
# Use free cloud model through Ollama
ollama launch claude --model qwen3.5:cloud
ये मॉडल्स remote infrastructure पर चलते हैं लेकिन उसी Ollama इंटरफ़ेस का उपयोग करते हैं। आपका कोड फिर भी बाहरी सर्वर्स पर जाता है (पूरी तरह private नहीं), लेकिन यह मुफ्त है और लोकल inference से काफ़ी तेज़ है।
पूरी तुलना: Cloud Claude vs लोकल मॉडल्स
| पहलू | Cloud Claude (Sonnet/Opus) | लोकल मॉडल्स (Ollama) | Ollama Cloud Models |
|---|---|---|---|
| स्पीड | 60-80 tok/s | 8-25 tok/s | 30-60 tok/s |
| कोड क्वालिटी | 98% edit accuracy | 70-80% edit accuracy | 85-95% edit accuracy |
| मल्टी-फ़ाइल Reasoning | उत्कृष्ट | ठीक-ठाक (जटिलता के साथ गिरती है) | अच्छी |
| Tool Calling | हमेशा भरोसेमंद | मॉडल पर निर्भर (GLM बेस्ट) | भरोसेमंद |
| मासिक लागत | $20-200 | $0 (केवल बिजली) | $0 |
| प्राइवेसी | डेटा Anthropic को भेजा जाता है | 100% लोकल | डेटा मॉडल provider को भेजा जाता है |
| ऑफलाइन | नहीं | हाँ | नहीं |
| Rate Limits | हाँ (भारी Cowork टास्क्स ज़्यादा खपत करते हैं) | नहीं | हाँ (उदार) |
| Scheduled Tasks | हाँ | नहीं | नहीं |
| Computer Use | हाँ | नहीं | नहीं |
| Plugins | पूरा सपोर्ट | सीमित | सीमित |
| Context Window | 200K+ | 32K-128K (मॉडल पर निर्भर) | 128K+ |
परफॉर्मेंस बेंचमार्क्स
लोकल और cloud inference की तुलना करते हुए published benchmarks से वास्तविक नंबर्स:
Token Throughput
| सेटअप | Tokens/sec | नोट्स |
|---|---|---|
| Claude API (Sonnet 4) | 60-80 | Anthropic का infrastructure |
| Ollama cloud model | 30-60 | मॉडल और लोड के अनुसार बदलता है |
| RTX 4070 Ti Super (32B Q4) | 15-25 | $489 GPU, 16GB VRAM |
| M1 Max 64GB (GLM-4.7-Flash) | 10-20 | Apple Silicon unified memory |
| RTX 3060 12GB (GLM-4.7-Flash) | 8-15 | Budget GPU |
वास्तविक टास्क समय
| टास्क | Cloud Claude | GLM-4.7 Local (M1 Max) | अंतर |
|---|---|---|---|
| सरल file read + edit | ~3 सेकंड | ~15 सेकंड | 5x धीमा |
| मल्टी-फ़ाइल refactoring | ~1 मिनट | ~12 मिनट | 12x धीमा |
| पूरा repo विश्लेषण | ~1.2 मिनट | ~82 मिनट | 68x धीमा |
कोडिंग क्वालिटी स्कोर्स (50-task benchmark)
| टास्क प्रकार | GLM-4.7-Flash | Qwen3-Coder | Cloud Claude Sonnet |
|---|---|---|---|
| Function generation | 3.9/5 | 4.1/5 | 4.4/5 |
| Bug detection | 3.5/5 | 3.8/5 | 4.6/5 |
| Refactoring | 3.7/5 | 4.0/5 | 4.3/5 |
| मल्टी-फ़ाइल context | 2.5/5 | 2.8/5 | 4.5/5 |
| कोड explanation | 4.0/5 | 4.2/5 | 4.1/5 |
लागत विश्लेषण
| विकल्प | Upfront | मासिक | 6-महीने का कुल | 12-महीने का कुल |
|---|---|---|---|---|
| Claude Pro Plan | $0 | $20 | $120 | $240 |
| Claude Max Plan | $0 | $100-200 | $600-1,200 | $1,200-2,400 |
| लोकल GPU (RTX 4070 Ti) | $489 | $8-12 (बिजली) | $537-561 | $585-633 |
| लोकल (Apple Silicon, मौजूदा Mac) | $0 | $3-5 (बिजली) | $18-30 | $36-60 |
| Ollama Cloud Models | $0 | $0 | $0 | $0 |
Breakeven point: एक heavy Claude Max user ($200/महीना) GPU निवेश को सिर्फ़ 2.5 महीने में recoup कर लेता है। Claude Pro users ($20/महीना) भी 6-8 महीने में breakeven हो जाते हैं अगर उनके पास पहले से सक्षम हार्डवेयर है।
लोकल मॉडल्स की सीमाएँ
इस बारे में realistic रहें कि लोकल मॉडल्स क्या नहीं कर सकते:
- धीमी inference (3-68x): सरल टास्क्स में 5x ज़्यादा समय लगता है। जटिल repo विश्लेषण cloud Claude से 68x तक धीमा हो सकता है।
- कम edit accuracy (70-80% vs 98%): लोकल मॉडल्स गलत line numbers, खराब whitespace, और mismatched context के साथ patches बनाते हैं। 50-edit सेशन में आप कोड लिखने से ज़्यादा समय टूटे patches ठीक करने में बिताएँगे।
- कमज़ोर मल्टी-फ़ाइल reasoning: Cloud Claude बड़े codebases में रिश्ते समझने में उत्कृष्ट है। लोकल मॉडल्स जटिलता के साथ काफ़ी ज़्यादा गिरते हैं।
- Tool calling reliability: सभी मॉडल्स tool calling सपोर्ट नहीं करते। इसके बिना, Claude Code एक plain text generator बन जाता है जो actions को execute करने के बजाय सिर्फ़ describe करता है।
- कोई scheduled tasks नहीं: दोहराए जाने वाले automated काम केवल cloud Cowork के साथ चलते हैं।
- कोई Computer Use नहीं: डेस्कटॉप कंट्रोल (ऐप्स में क्लिक करना, टाइप करना) के लिए cloud Claude चाहिए।
- कोई plugins नहीं: ज़्यादातर Cowork plugins को cloud infrastructure चाहिए।
- Context window सीमाएँ: लोकल मॉडल्स आम तौर पर 128K tokens पर max हो जाते हैं vs cloud Claude के लिए 200K+।
- Streaming tool calls के लिए Ollama 0.14.3-rc1+ चाहिए: stable release सभी tool-use scenarios को सही से handle नहीं कर सकता।
लोकल मॉडल्स के साथ क्या संभव है
सीमाओं के बावजूद, लोकल मॉडल्स महत्वपूर्ण क्षमताएँ unlock करते हैं:
- 100% ऑफलाइन development: हवाई जहाज़ों में, बिना WiFi वाले कैफ़े में, या restricted networks में कोड लिखें।
- पूरी data privacy: Proprietary कोड, PII, मेडिकल records, defense contracts — कुछ भी आपकी मशीन से बाहर नहीं जाता।
- GDPR/compliance: क्रॉस-बॉर्डर data transfer की चिंताएँ पूरी तरह खत्म करें। कोई DPA नहीं चाहिए।
- Air-gapped environments: Defense, healthcare, और सरकारी संगठन network access के बिना AI कोडिंग सहायता का उपयोग कर सकते हैं।
- अनलिमिटेड उपयोग: कोई rate limits नहीं, कोई मासिक caps नहीं, भारी उपयोग के दौरान कोई throttling नहीं।
- Custom fine-tuned models: domain-specific सहायता के लिए अपने codebase पर मॉडल्स को train करें।
- Hybrid workflows: sensitive काम के लिए लोकल, जटिल टास्क्स के लिए cloud। तुरंत switch करें।
- Zero-cost experimentation: billing meter देखे बिना अलग-अलग मॉडल्स, approaches, और prompts आज़माएँ।
Troubleshooting
"Connection refused" error
- सुनिश्चित करें Ollama चल रहा है:
ollama serve - चेक करें कि port ब्लॉक नहीं है:
curl http://localhost:11434/api/tags - Ollama version वेरिफ़ाई करें:
ollama --version(0.14.0+ होना चाहिए)
मॉडल सिर्फ़ बात करता है, action नहीं लेता
अगर Claude Code "I would read the file..." जैसे जवाब देता है फ़ाइल पढ़ने के बजाय, तो tool calling काम नहीं कर रहा:
- Confirmed tool support वाले मॉडल पर switch करें: GLM-4.7-Flash या कोई cloud मॉडल
- Streaming tool calls के लिए Ollama को 0.14.3-rc1+ पर अपडेट करें
- सुनिश्चित करें
ANTHROPIC_AUTH_TOKENollamaपर सेट है, असली API key पर नहीं
धीमा generation (5 tok/s से कम)
- छोटी quantization पर जाएँ: Q6_K के बजाय Q4_K_M
- Context कम करें:
ollama run glm-4.7-flash --num-ctx 32768 - अगर dense मॉडल इस्तेमाल कर रहे हैं तो GLM-4.7-Flash पर switch करें (MoE = तेज़)
- Ollama cloud models पर विचार करें:
ollama launch claude --model qwen3.5:cloud
"Role model" request failures
Claude Code background tasks के लिए "haiku" का उपयोग करने की कोशिश करता है। अपनी Claude Code settings में small model override को उसी लोकल मॉडल पर सेट करके इसे ठीक करें।
अक्सर पूछे जाने वाले सवाल
क्या मैं Claude Cowork को लोकल मॉडल्स के साथ पूरी तरह ऑफलाइन इस्तेमाल कर सकता हूँ?
हाँ। एक बार आप Ollama के ज़रिए अपना मॉडल pull कर लें, सब कुछ लोकली चलता है। Inference के लिए कोई इंटरनेट नहीं चाहिए। हालाँकि, कुछ Cowork फीचर्स (scheduled tasks, plugins, Computer Use) cloud-only हैं और ऑफलाइन काम नहीं करेंगे।
क्या यह सच में मुफ्त है?
Ollama के ज़रिए लोकल मॉडल्स चलाना पूरी तरह मुफ्त है। कोई API keys नहीं, कोई billing नहीं, कोई subscription नहीं। Ollama के cloud models (जैसे qwen3.5:cloud) भी उदार rate limits के साथ मुफ्त हैं। पूरी तरह लोकल inference के लिए आपकी एकमात्र लागत हार्डवेयर और बिजली है।
Ollama के साथ Claude Code के लिए सबसे अच्छा मॉडल कौन-सा है?
GLM-4.7-Flash शीर्ष recommendation है: 128K context, native tool calling (79.5% benchmark), और mixture-of-experts architecture की वजह से 16GB RAM पर चलता है। Ollama cloud models के लिए, Qwen 3.5 और GLM-5 शून्य लागत पर frontier-level क्वालिटी देते हैं।
Cloud की तुलना में लोकल कितना धीमा है?
सरल टास्क्स के लिए 3-5x धीमा और जटिल मल्टी-फ़ाइल विश्लेषण के लिए 68x तक धीमा होने की उम्मीद रखें। स्पीड का अंतर मुख्य tradeoff है। हालाँकि, कई single-file टास्क्स (कोड explanation, सरल edits, documentation) के लिए, यह देरी बर्दाश्त करने योग्य है (3-5 सेकंड vs 10-20 सेकंड)।
क्या मैं लोकल और cloud मॉडल्स के बीच switch कर सकता हूँ?
हाँ। sensitive/private काम के लिए लोकल मॉडल्स और जटिल टास्क्स के लिए cloud Claude इस्तेमाल करें। आप environment variables बदलकर या अलग terminal profiles का उपयोग करके आसानी से switch कर सकते हैं।
क्या क्वालिटी cloud Claude से मेल खाती है?
नहीं। लोकल मॉडल्स single-file टास्क्स पर cloud Claude का 85-90% स्कोर करते हैं लेकिन मल्टी-फ़ाइल reasoning पर काफ़ी कम (cloud क्वालिटी का 50-60%)। Edit accuracy 98% से गिरकर 70-80% हो जाती है, मतलब अधिक manual सुधार चाहिए।
निष्कर्ष
Claude Cowork लोकल मॉडल्स के साथ cloud Claude का replacement नहीं है — यह एक complement है। 2026 में आदर्श workflow ऐसा दिखता है:
- लोकल मॉडल्स → sensitive codebases, अनलिमिटेड experimentation, ऑफलाइन काम, privacy-first environments
- Ollama cloud models → मुफ्त, लोकल से तेज़, अच्छी क्वालिटी, non-sensitive काम के लिए स्वीकार्य
- Cloud Claude → जटिल मल्टी-फ़ाइल reasoning, scheduled automation, Computer Use, अधिकतम क्वालिटी
सेटअप में 5 मिनट लगते हैं। लागत शून्य है। अगर आपके पास 16GB+ RAM वाला Mac या 12GB+ VRAM वाला GPU है, तो इसे आज़माने का कोई कारण नहीं है कि न आज़माएँ। ollama pull glm-4.7-flash और ollama launch claude से शुरू करें — आप एक मिनट के अंदर एक लोकल AI agent के साथ कोडिंग कर रहे होंगे।
और अधिक AI कोडिंग टूल्स के लिए, हमारी Claude Opus 4.6 review और हमारा मुफ्त AI Image Generator देखें।









