¿Quieres ejecutar Claude Cowork con modelos locales: completamente gratis, sin conexión y privado? Desde enero de 2026, Ollama v0.14 incluye compatibilidad nativa con la API de Anthropic Messages, lo que significa que la herramienta agéntica de escritorio de Claude ya puede hablar directamente con modelos open source que se ejecuten en tu propio hardware. Sin clave de API. Sin suscripción. Sin que ningún dato salga de tu máquina.
Esta guía cubre todo: instalación, configuración, elección de modelo, benchmarks de rendimiento, limitaciones y una tabla comparativa completa entre Claude en la nube y la inferencia local. Tanto si eres un desarrollador preocupado por la privacidad como alguien que quiere usar Claude Cowork de forma ilimitada y a coste cero, esta es la guía de configuración definitiva para 2026.
¿Qué es Claude Cowork?
Claude Cowork es la herramienta agéntica de escritorio de Anthropic que lleva las capacidades de Claude Code a Claude Desktop para tareas de conocimiento más allá del código. En lugar de responder a prompts uno a uno, Claude puede asumir tareas complejas de varios pasos y ejecutarlas en tu nombre: dar formato a documentos, organizar archivos, sintetizar investigaciones y automatizar flujos de trabajo.
Capacidades clave
- Ejecución de tareas multipaso: describe un objetivo, vete a otra cosa y vuelve con el trabajo terminado
- Acceso al sistema de archivos: leer, escribir y organizar archivos en tu ordenador
- Tareas programadas: automatiza trabajo recurrente (función exclusiva de la nube)
- Proyectos: espacios de trabajo persistentes con sus propios archivos, enlaces, instrucciones y memoria
- Plugins: amplía la funcionalidad con skills, conectores y subagentes
- Computer Use: controla apps de escritorio viendo, clicando y escribiendo
Cowork se ejecuta directamente en tu ordenador en una VM aislada, dando a Claude acceso a los archivos que tú elijas compartir. El código se ejecuta de forma segura en entornos sandbox mientras Claude realiza cambios reales en tus archivos.
¿Por qué usar modelos locales con Claude Cowork?
Ejecutar Claude Cowork contra APIs en la nube cuesta dinero y envía tus datos a servidores externos. Estas son las razones por las que los modelos locales cambian las reglas del juego:
| Factor | Claude en la nube | Modelos locales |
|---|---|---|
| Coste | 20-200 $/mes (planes Pro/Max) | 0 $ tras el hardware |
| Privacidad | Datos enviados a los servidores de Anthropic | Todo permanece en tu máquina |
| Límites de uso | Topes de uso, sobre todo con tareas pesadas de Cowork | Ilimitado: ejecuta lo que quieras |
| Sin conexión | Requiere internet | Funciona totalmente offline |
| Residencia de datos | Preocupaciones de transferencia transfronteriza | Control total de RGPD/cumplimiento |
| Velocidad | 60-80 tokens/seg | 8-25 tokens/seg (depende del hardware) |
El compromiso es claro: los modelos locales sacrifican velocidad a cambio de privacidad, ahorro y uso ilimitado. Para muchos flujos de trabajo —especialmente los que implican código sensible, documentos propietarios o entornos air-gapped— ese compromiso tiene mucho sentido.
Requisitos previos y de hardware
Antes de configurar modelos locales con Claude Cowork, asegúrate de que tu sistema cumple estos requisitos:
Requisitos de software
- Ollama v0.14.0+ (necesario para la compatibilidad con la API Anthropic Messages)
- Claude Code CLI instalado mediante
curl -fsSL https://claude.ai/install.sh | bash - macOS 13+, Windows 10+ o Linux (se recomienda Ubuntu 20.04+)
Requisitos de hardware
| Nivel | Hardware | Mejor modelo | Experiencia |
|---|---|---|---|
| Mínimo viable | 16 GB de RAM (M1/M2) o RTX 3060 12 GB | GLM-4.7-Flash (Q4) | Usable para tareas de un solo archivo. Más lento en operaciones complejas. |
| Recomendado | 32 GB de RAM (M1 Pro/Max) o RTX 4070 Ti 16 GB | Qwen3-Coder 30B (Q4) | Sólido para la mayoría de flujos de programación. El multiarchivo funciona, aunque más lento. |
| Ideal | 64 GB+ de RAM (M2/M3/M4 Max) o RTX 4090 24 GB | Qwen2.5-Coder-32B (Q6) | La mejor experiencia local. Cuantización superior y mayor rendimiento. |
Configuración paso a paso: Ollama + Claude Code
Paso 1: instala Ollama
macOS (Homebrew):
brew install ollama
Linux:
curl -fsSL https://ollama.com/install.sh | sh
Windows: descárgalo desde ollama.com
Verifica la instalación:
ollama --version
# Debe ser v0.14.0 o superior
Paso 2: descarga un modelo local
Elige un modelo con soporte de tool calling (necesario para las funciones agénticas de Claude Code):
# Mejor opción: 30B MoE, solo 3B de parámetros activos, funciona con 16 GB de RAM
ollama pull glm-4.7-flash
# Alternativa: modelo de código potente
ollama pull qwen3-coder
# Opción económica para máquinas de 8 GB
ollama pull devstral-small-2
Paso 3: instala Claude Code
macOS/Linux:
curl -fsSL https://claude.ai/install.sh | bash
Windows:
irm https://claude.ai/install.ps1 | iex
Paso 4: conecta Claude Code a Ollama
Método más rápido: un solo comando:
ollama launch claude
Esto configura automáticamente ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL y lanza Claude Code apuntando a tu instancia local de Ollama. Selecciona tu modelo de la lista y pulsa Enter.
Método manual: variables de entorno explícitas:
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434
# Lanza Claude Code
claude
O en línea, sin modificar tu perfil de shell:
ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_BASE_URL=http://localhost:11434 claude
Paso 5: verifica la conexión
Una vez que Claude Code se haya iniciado, prueba un comando sencillo:
> Lee el directorio actual y lista todos los archivos
Si el modelo lee los archivos y responde con un listado real (en lugar de solo describir lo que haría), el tool calling está funcionando correctamente.
Configuración con LM Studio
LM Studio ofrece una interfaz gráfica para gestionar modelos locales:
- Descarga LM Studio desde lmstudio.ai
- Busca y descarga GLM-4.7-Flash o Qwen3-Coder
- Ve a la pestaña Local Server → Start Server (puerto por defecto: 1234)
- Configura Claude Code:
export ANTHROPIC_AUTH_TOKEN=lm-studio
export ANTHROPIC_BASE_URL=http://localhost:1234
claude
Los mejores modelos locales para Claude Cowork
| Modelo | Parámetros | Contexto | Tool calling | RAM/VRAM necesaria | Mejor para |
|---|---|---|---|---|---|
| GLM-4.7-Flash ⭐ | 30B MoE (3B activos) | 128K | Sí (79,5 %) | ~6,5 GB (Q4) | Mejor equilibrio entre velocidad y capacidad |
| Qwen3-Coder | 30B | 128K | Sí | ~20 GB (Q4) | Tareas de código exigentes |
| GPT-OSS:20B | 20B | 32K | Sí | ~12 GB (Q4) | Buen propósito general |
| Devstral-Small-2 | 24B | 128K | Sí | ~16 GB (Q4) | Tareas centradas en código |
| Qwen2.5-Coder:32B | 32B | 128K | Limitado | ~24 GB (Q4) | Programación compleja (requiere hardware potente) |
Recomendación principal: GLM-4.7-Flash. Su arquitectura mixture-of-experts hace que solo se activen 3B de parámetros por token, a pesar de ser un modelo de 30B. Esto se traduce en inferencia rápida en hardware modesto (16 GB de RAM), manteniendo 128K de contexto y un buen tool calling (79,5 % en benchmarks de agentes).
Modelos en la nube gratuitos vía Ollama
¿No quieres ejecutar inferencia localmente? Ollama también hace de proxy con modelos en la nube gratuitos que tienen límites generosos:
| Modelo | Contexto | Velocidad | Coste |
|---|---|---|---|
| qwen3.5:cloud | 128K+ | 30-60 tok/s | Gratis (con límite de uso) |
| glm-5:cloud | 128K+ | 30-60 tok/s | Gratis (con límite de uso) |
| kimi-k2.5:cloud | 128K+ | 30-60 tok/s | Gratis (con límite de uso) |
| qwen3-coder:480b-cloud | 128K+ | 30-60 tok/s | Gratis (con límite de uso) |
# Usa un modelo en la nube gratuito a través de Ollama
ollama launch claude --model qwen3.5:cloud
Estos modelos se ejecutan en infraestructura remota pero usan la misma interfaz de Ollama. Tu código sigue yendo a servidores externos (no es realmente privado), pero es gratis y bastante más rápido que la inferencia local.
Comparativa completa: Claude en la nube frente a modelos locales
| Aspecto | Claude en la nube (Sonnet/Opus) | Modelos locales (Ollama) | Modelos Ollama Cloud |
|---|---|---|---|
| Velocidad | 60-80 tok/s | 8-25 tok/s | 30-60 tok/s |
| Calidad de código | 98 % de precisión en ediciones | 70-80 % de precisión en ediciones | 85-95 % de precisión en ediciones |
| Razonamiento multiarchivo | Excelente | Aceptable (empeora con la complejidad) | Bueno |
| Tool calling | Siempre fiable | Depende del modelo (GLM es el mejor) | Fiable |
| Coste mensual | 20-200 $ | 0 $ (solo electricidad) | 0 $ |
| Privacidad | Datos enviados a Anthropic | 100 % local | Datos enviados al proveedor del modelo |
| Sin conexión | No | Sí | No |
| Límites de uso | Sí (las tareas pesadas de Cowork consumen más) | Ninguno | Sí (generosos) |
| Tareas programadas | Sí | No | No |
| Computer Use | Sí | No | No |
| Plugins | Soporte completo | Limitado | Limitado |
| Ventana de contexto | 200K+ | 32K-128K (según el modelo) | 128K+ |
Benchmarks de rendimiento
Cifras del mundo real procedentes de benchmarks publicados que comparan inferencia local y en la nube:
Throughput de tokens
| Configuración | Tokens/seg | Notas |
|---|---|---|
| API de Claude (Sonnet 4) | 60-80 | Infraestructura de Anthropic |
| Modelo Ollama Cloud | 30-60 | Varía según el modelo y la carga |
| RTX 4070 Ti Super (32B Q4) | 15-25 | GPU de 489 $, 16 GB de VRAM |
| M1 Max 64 GB (GLM-4.7-Flash) | 10-20 | Memoria unificada de Apple Silicon |
| RTX 3060 12 GB (GLM-4.7-Flash) | 8-15 | GPU económica |
Tiempos en tareas reales
| Tarea | Claude en la nube | GLM-4.7 local (M1 Max) | Diferencia |
|---|---|---|---|
| Lectura y edición simple de archivo | ~3 segundos | ~15 segundos | 5x más lento |
| Refactorización multiarchivo | ~1 minuto | ~12 minutos | 12x más lento |
| Análisis completo de un repo | ~1,2 minutos | ~82 minutos | 68x más lento |
Puntuaciones de calidad de código (benchmark de 50 tareas)
| Tipo de tarea | GLM-4.7-Flash | Qwen3-Coder | Claude Sonnet en la nube |
|---|---|---|---|
| Generación de funciones | 3,9/5 | 4,1/5 | 4,4/5 |
| Detección de bugs | 3,5/5 | 3,8/5 | 4,6/5 |
| Refactorización | 3,7/5 | 4,0/5 | 4,3/5 |
| Contexto multiarchivo | 2,5/5 | 2,8/5 | 4,5/5 |
| Explicación de código | 4,0/5 | 4,2/5 | 4,1/5 |
Análisis de costes
| Opción | Inversión inicial | Mensual | Total a 6 meses | Total a 12 meses |
|---|---|---|---|---|
| Plan Claude Pro | 0 $ | 20 $ | 120 $ | 240 $ |
| Plan Claude Max | 0 $ | 100-200 $ | 600-1 200 $ | 1 200-2 400 $ |
| GPU local (RTX 4070 Ti) | 489 $ | 8-12 $ (electricidad) | 537-561 $ | 585-633 $ |
| Local (Apple Silicon, Mac existente) | 0 $ | 3-5 $ (electricidad) | 18-30 $ | 36-60 $ |
| Modelos Ollama Cloud | 0 $ | 0 $ | 0 $ | 0 $ |
Punto de equilibrio: un usuario intensivo de Claude Max (200 $/mes) recupera la inversión en GPU en solo 2,5 meses. Incluso los usuarios de Claude Pro (20 $/mes) llegan al equilibrio en 6-8 meses si ya cuentan con hardware adecuado.
Limitaciones de los modelos locales
Sé realista sobre lo que los modelos locales no pueden hacer:
- Inferencia más lenta (3-68x): las tareas sencillas tardan 5 veces más. Un análisis complejo de un repo puede tardar 68 veces más que con Claude en la nube.
- Menor precisión en ediciones (70-80 % frente a 98 %): los modelos locales producen parches con números de línea incorrectos, espacios en blanco mal puestos y contexto desencajado. En una sesión de 50 ediciones, gastarás más tiempo arreglando parches rotos que escribiendo código.
- Razonamiento multiarchivo más débil: Claude en la nube destaca al entender relaciones en grandes bases de código. Los modelos locales se degradan mucho con la complejidad.
- Fiabilidad del tool calling: no todos los modelos lo soportan. Sin él, Claude Code se convierte en un simple generador de texto que describe acciones en lugar de ejecutarlas.
- Sin tareas programadas: el trabajo automatizado recurrente solo funciona con Cowork en la nube.
- Sin Computer Use: el control del escritorio (clics, escritura en apps) requiere Claude en la nube.
- Sin plugins: la mayoría de plugins de Cowork requieren infraestructura en la nube.
- Límites de la ventana de contexto: los modelos locales suelen tope en 128K tokens, frente a más de 200K de Claude en la nube.
- Las llamadas a herramientas en streaming requieren Ollama 0.14.3-rc1+: la versión estable puede no manejar correctamente todos los escenarios de uso de herramientas.
Qué es posible con modelos locales
Pese a las limitaciones, los modelos locales desbloquean capacidades importantes:
- Desarrollo 100 % offline: programa en aviones, en cafeterías sin WiFi o en redes restringidas.
- Privacidad total de los datos: código propietario, PII, historiales médicos, contratos de defensa... nada sale de tu máquina.
- RGPD y cumplimiento: elimina por completo las preocupaciones de transferencia transfronteriza de datos. Sin necesidad de DPAs.
- Entornos air-gapped: defensa, sanidad y administraciones públicas pueden usar asistencia de programación con IA sin acceso a la red.
- Uso ilimitado: sin límites de tasa, sin topes mensuales, sin throttling durante un uso intensivo.
- Modelos personalizados afinados: entrena modelos sobre tu base de código para asistencia específica de dominio.
- Flujos híbridos: usa local para trabajo sensible y nube para tareas complejas. Cambia al instante.
- Experimentación a coste cero: prueba distintos modelos, enfoques y prompts sin vigilar el contador.
Solución de problemas
Error «Connection refused»
- Asegúrate de que Ollama esté en marcha:
ollama serve - Comprueba que el puerto no esté bloqueado:
curl http://localhost:11434/api/tags - Verifica la versión de Ollama:
ollama --version(debe ser 0.14.0+)
El modelo solo habla en lugar de actuar
Si Claude Code responde con «Leería el archivo...» en lugar de leerlo realmente, el tool calling no funciona:
- Cambia a un modelo con soporte confirmado para herramientas: GLM-4.7-Flash o cualquier modelo en la nube
- Actualiza Ollama a 0.14.3-rc1+ para llamadas a herramientas en streaming
- Asegúrate de que
ANTHROPIC_AUTH_TOKENesté establecido enollama, no en una clave de API real
Generación lenta (menos de 5 tok/s)
- Baja a una cuantización menor: Q4_K_M en lugar de Q6_K
- Reduce el contexto:
ollama run glm-4.7-flash --num-ctx 32768 - Cambia a GLM-4.7-Flash si estás usando un modelo denso (MoE = más rápido)
- Plantéate usar modelos Ollama Cloud:
ollama launch claude --model qwen3.5:cloud
Errores en peticiones de «role model»
Claude Code intenta usar «haiku» para tareas en segundo plano. Soluciónalo configurando el override de modelo pequeño en los ajustes de Claude Code para que use el mismo modelo local.
Preguntas frecuentes
¿Puedo usar Claude Cowork totalmente offline con modelos locales?
Sí. Una vez que hayas descargado tu modelo con Ollama, todo se ejecuta localmente. No se necesita internet para la inferencia. Sin embargo, algunas funciones de Cowork (tareas programadas, plugins, Computer Use) son exclusivas de la nube y no funcionarán sin conexión.
¿Es realmente gratis?
Ejecutar modelos locales mediante Ollama es totalmente gratis. Sin claves de API, sin facturación, sin suscripción. Los modelos en la nube de Ollama (como qwen3.5:cloud) también son gratis con límites generosos. El único coste de la inferencia realmente local es el hardware y la electricidad.
¿Cuál es el mejor modelo para Claude Code con Ollama?
GLM-4.7-Flash es la principal recomendación: 128K de contexto, tool calling nativo (79,5 % en benchmark) y se ejecuta con 16 GB de RAM gracias a su arquitectura mixture-of-experts. Para los modelos Ollama Cloud, Qwen 3.5 y GLM-5 ofrecen calidad de frontera a coste cero.
¿Cuánto más lento es lo local frente a la nube?
Espera entre 3 y 5 veces más lento en tareas sencillas, y hasta 68 veces más lento en análisis complejos multiarchivo. La diferencia de velocidad es el principal compromiso. Aun así, en muchas tareas de un solo archivo (explicación de código, ediciones simples, documentación), el retardo es tolerable (10-20 segundos frente a 3-5 segundos).
¿Puedo cambiar entre modelos locales y en la nube?
Sí. Usa modelos locales para trabajo sensible/privado y Claude en la nube para tareas complejas. Puedes cambiar simplemente modificando variables de entorno o usando perfiles de terminal separados.
¿La calidad iguala a Claude en la nube?
No. Los modelos locales puntúan al 85-90 % de Claude en la nube en tareas de un solo archivo, pero claramente peor en razonamiento multiarchivo (50-60 % de la calidad de la nube). La precisión en ediciones cae del 98 % al 70-80 %, lo que implica más correcciones manuales.
Conclusión
Claude Cowork con modelos locales no es un sustituto de Claude en la nube: es un complemento. El flujo ideal en 2026 se parece a esto:
- Modelos locales → bases de código sensibles, experimentación ilimitada, trabajo offline, entornos privacy-first
- Modelos Ollama Cloud → gratis, más rápidos que lo local, buena calidad, válidos para trabajo no sensible
- Claude en la nube → razonamiento multiarchivo complejo, automatización programada, Computer Use, máxima calidad
La configuración lleva 5 minutos. El coste es cero. Si tienes un Mac con 16 GB+ de RAM o una GPU con 12 GB+ de VRAM, no hay razón para no probarlo. Empieza con ollama pull glm-4.7-flash y ollama launch claude: estarás programando con un agente de IA local en menos de un minuto.
Para más herramientas de programación con IA, explora nuestra reseña de Claude Opus 4.6 y nuestro Generador de imágenes con IA gratuito.









