Skip to main content
PROMPT SPACE
Herramientas IA
13 min readUpdated

Cómo usar Claude Cowork con modelos locales: guía completa de configuración (2026)

Ejecuta Claude Cowork con modelos locales mediante Ollama de forma gratuita. Configuración paso a paso, mejores modelos, benchmarks de rendimiento, limitaciones y comparativa completa. Sin clave de API.

Cómo usar Claude Cowork con modelos locales: guía completa de configuración (2026)

¿Quieres ejecutar Claude Cowork con modelos locales: completamente gratis, sin conexión y privado? Desde enero de 2026, Ollama v0.14 incluye compatibilidad nativa con la API de Anthropic Messages, lo que significa que la herramienta agéntica de escritorio de Claude ya puede hablar directamente con modelos open source que se ejecuten en tu propio hardware. Sin clave de API. Sin suscripción. Sin que ningún dato salga de tu máquina.

Esta guía cubre todo: instalación, configuración, elección de modelo, benchmarks de rendimiento, limitaciones y una tabla comparativa completa entre Claude en la nube y la inferencia local. Tanto si eres un desarrollador preocupado por la privacidad como alguien que quiere usar Claude Cowork de forma ilimitada y a coste cero, esta es la guía de configuración definitiva para 2026.

💡
¿Ya usas herramientas de programación con IA? Echa un vistazo a nuestra comparativa entre Cursor, Windsurf y Claude Code para ver cómo encaja Cowork en el panorama general.

¿Qué es Claude Cowork?

Claude Cowork es la herramienta agéntica de escritorio de Anthropic que lleva las capacidades de Claude Code a Claude Desktop para tareas de conocimiento más allá del código. En lugar de responder a prompts uno a uno, Claude puede asumir tareas complejas de varios pasos y ejecutarlas en tu nombre: dar formato a documentos, organizar archivos, sintetizar investigaciones y automatizar flujos de trabajo.

Capacidades clave

  • Ejecución de tareas multipaso: describe un objetivo, vete a otra cosa y vuelve con el trabajo terminado
  • Acceso al sistema de archivos: leer, escribir y organizar archivos en tu ordenador
  • Tareas programadas: automatiza trabajo recurrente (función exclusiva de la nube)
  • Proyectos: espacios de trabajo persistentes con sus propios archivos, enlaces, instrucciones y memoria
  • Plugins: amplía la funcionalidad con skills, conectores y subagentes
  • Computer Use: controla apps de escritorio viendo, clicando y escribiendo

Cowork se ejecuta directamente en tu ordenador en una VM aislada, dando a Claude acceso a los archivos que tú elijas compartir. El código se ejecuta de forma segura en entornos sandbox mientras Claude realiza cambios reales en tus archivos.

¿Por qué usar modelos locales con Claude Cowork?

Ejecutar Claude Cowork contra APIs en la nube cuesta dinero y envía tus datos a servidores externos. Estas son las razones por las que los modelos locales cambian las reglas del juego:

FactorClaude en la nubeModelos locales
Coste20-200 $/mes (planes Pro/Max)0 $ tras el hardware
PrivacidadDatos enviados a los servidores de AnthropicTodo permanece en tu máquina
Límites de usoTopes de uso, sobre todo con tareas pesadas de CoworkIlimitado: ejecuta lo que quieras
Sin conexiónRequiere internetFunciona totalmente offline
Residencia de datosPreocupaciones de transferencia transfronterizaControl total de RGPD/cumplimiento
Velocidad60-80 tokens/seg8-25 tokens/seg (depende del hardware)

El compromiso es claro: los modelos locales sacrifican velocidad a cambio de privacidad, ahorro y uso ilimitado. Para muchos flujos de trabajo —especialmente los que implican código sensible, documentos propietarios o entornos air-gapped— ese compromiso tiene mucho sentido.

Requisitos previos y de hardware

Antes de configurar modelos locales con Claude Cowork, asegúrate de que tu sistema cumple estos requisitos:

Requisitos de software

  • Ollama v0.14.0+ (necesario para la compatibilidad con la API Anthropic Messages)
  • Claude Code CLI instalado mediante curl -fsSL https://claude.ai/install.sh | bash
  • macOS 13+, Windows 10+ o Linux (se recomienda Ubuntu 20.04+)

Requisitos de hardware

NivelHardwareMejor modeloExperiencia
Mínimo viable16 GB de RAM (M1/M2) o RTX 3060 12 GBGLM-4.7-Flash (Q4)Usable para tareas de un solo archivo. Más lento en operaciones complejas.
Recomendado32 GB de RAM (M1 Pro/Max) o RTX 4070 Ti 16 GBQwen3-Coder 30B (Q4)Sólido para la mayoría de flujos de programación. El multiarchivo funciona, aunque más lento.
Ideal64 GB+ de RAM (M2/M3/M4 Max) o RTX 4090 24 GBQwen2.5-Coder-32B (Q6)La mejor experiencia local. Cuantización superior y mayor rendimiento.

Configuración paso a paso: Ollama + Claude Code

Paso 1: instala Ollama

macOS (Homebrew):

terminal
brew install ollama

Linux:

terminal
curl -fsSL https://ollama.com/install.sh | sh

Windows: descárgalo desde ollama.com

Verifica la instalación:

terminal
ollama --version
# Debe ser v0.14.0 o superior

Paso 2: descarga un modelo local

Elige un modelo con soporte de tool calling (necesario para las funciones agénticas de Claude Code):

terminal
# Mejor opción: 30B MoE, solo 3B de parámetros activos, funciona con 16 GB de RAM
ollama pull glm-4.7-flash

# Alternativa: modelo de código potente
ollama pull qwen3-coder

# Opción económica para máquinas de 8 GB
ollama pull devstral-small-2

Paso 3: instala Claude Code

macOS/Linux:

terminal
curl -fsSL https://claude.ai/install.sh | bash

Windows:

terminal
irm https://claude.ai/install.ps1 | iex

Paso 4: conecta Claude Code a Ollama

Método más rápido: un solo comando:

terminal
ollama launch claude

Esto configura automáticamente ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL y lanza Claude Code apuntando a tu instancia local de Ollama. Selecciona tu modelo de la lista y pulsa Enter.

Método manual: variables de entorno explícitas:

terminal
export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434

# Lanza Claude Code
claude

O en línea, sin modificar tu perfil de shell:

terminal
ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_BASE_URL=http://localhost:11434 claude

Paso 5: verifica la conexión

Una vez que Claude Code se haya iniciado, prueba un comando sencillo:

terminal
> Lee el directorio actual y lista todos los archivos

Si el modelo lee los archivos y responde con un listado real (en lugar de solo describir lo que haría), el tool calling está funcionando correctamente.

Configuración con LM Studio

LM Studio ofrece una interfaz gráfica para gestionar modelos locales:

  1. Descarga LM Studio desde lmstudio.ai
  2. Busca y descarga GLM-4.7-Flash o Qwen3-Coder
  3. Ve a la pestaña Local Server → Start Server (puerto por defecto: 1234)
  4. Configura Claude Code:
terminal
export ANTHROPIC_AUTH_TOKEN=lm-studio
export ANTHROPIC_BASE_URL=http://localhost:1234
claude

Los mejores modelos locales para Claude Cowork

ModeloParámetrosContextoTool callingRAM/VRAM necesariaMejor para
GLM-4.7-Flash ⭐30B MoE (3B activos)128KSí (79,5 %)~6,5 GB (Q4)Mejor equilibrio entre velocidad y capacidad
Qwen3-Coder30B128K~20 GB (Q4)Tareas de código exigentes
GPT-OSS:20B20B32K~12 GB (Q4)Buen propósito general
Devstral-Small-224B128K~16 GB (Q4)Tareas centradas en código
Qwen2.5-Coder:32B32B128KLimitado~24 GB (Q4)Programación compleja (requiere hardware potente)

Recomendación principal: GLM-4.7-Flash. Su arquitectura mixture-of-experts hace que solo se activen 3B de parámetros por token, a pesar de ser un modelo de 30B. Esto se traduce en inferencia rápida en hardware modesto (16 GB de RAM), manteniendo 128K de contexto y un buen tool calling (79,5 % en benchmarks de agentes).

Modelos en la nube gratuitos vía Ollama

¿No quieres ejecutar inferencia localmente? Ollama también hace de proxy con modelos en la nube gratuitos que tienen límites generosos:

ModeloContextoVelocidadCoste
qwen3.5:cloud128K+30-60 tok/sGratis (con límite de uso)
glm-5:cloud128K+30-60 tok/sGratis (con límite de uso)
kimi-k2.5:cloud128K+30-60 tok/sGratis (con límite de uso)
qwen3-coder:480b-cloud128K+30-60 tok/sGratis (con límite de uso)
terminal
# Usa un modelo en la nube gratuito a través de Ollama
ollama launch claude --model qwen3.5:cloud

Estos modelos se ejecutan en infraestructura remota pero usan la misma interfaz de Ollama. Tu código sigue yendo a servidores externos (no es realmente privado), pero es gratis y bastante más rápido que la inferencia local.

Comparativa completa: Claude en la nube frente a modelos locales

AspectoClaude en la nube (Sonnet/Opus)Modelos locales (Ollama)Modelos Ollama Cloud
Velocidad60-80 tok/s8-25 tok/s30-60 tok/s
Calidad de código98 % de precisión en ediciones70-80 % de precisión en ediciones85-95 % de precisión en ediciones
Razonamiento multiarchivoExcelenteAceptable (empeora con la complejidad)Bueno
Tool callingSiempre fiableDepende del modelo (GLM es el mejor)Fiable
Coste mensual20-200 $0 $ (solo electricidad)0 $
PrivacidadDatos enviados a Anthropic100 % localDatos enviados al proveedor del modelo
Sin conexiónNoNo
Límites de usoSí (las tareas pesadas de Cowork consumen más)NingunoSí (generosos)
Tareas programadasNoNo
Computer UseNoNo
PluginsSoporte completoLimitadoLimitado
Ventana de contexto200K+32K-128K (según el modelo)128K+

Benchmarks de rendimiento

Cifras del mundo real procedentes de benchmarks publicados que comparan inferencia local y en la nube:

Throughput de tokens

ConfiguraciónTokens/segNotas
API de Claude (Sonnet 4)60-80Infraestructura de Anthropic
Modelo Ollama Cloud30-60Varía según el modelo y la carga
RTX 4070 Ti Super (32B Q4)15-25GPU de 489 $, 16 GB de VRAM
M1 Max 64 GB (GLM-4.7-Flash)10-20Memoria unificada de Apple Silicon
RTX 3060 12 GB (GLM-4.7-Flash)8-15GPU económica

Tiempos en tareas reales

TareaClaude en la nubeGLM-4.7 local (M1 Max)Diferencia
Lectura y edición simple de archivo~3 segundos~15 segundos5x más lento
Refactorización multiarchivo~1 minuto~12 minutos12x más lento
Análisis completo de un repo~1,2 minutos~82 minutos68x más lento

Puntuaciones de calidad de código (benchmark de 50 tareas)

Tipo de tareaGLM-4.7-FlashQwen3-CoderClaude Sonnet en la nube
Generación de funciones3,9/54,1/54,4/5
Detección de bugs3,5/53,8/54,6/5
Refactorización3,7/54,0/54,3/5
Contexto multiarchivo2,5/52,8/54,5/5
Explicación de código4,0/54,2/54,1/5

Análisis de costes

OpciónInversión inicialMensualTotal a 6 mesesTotal a 12 meses
Plan Claude Pro0 $20 $120 $240 $
Plan Claude Max0 $100-200 $600-1 200 $1 200-2 400 $
GPU local (RTX 4070 Ti)489 $8-12 $ (electricidad)537-561 $585-633 $
Local (Apple Silicon, Mac existente)0 $3-5 $ (electricidad)18-30 $36-60 $
Modelos Ollama Cloud0 $0 $0 $0 $

Punto de equilibrio: un usuario intensivo de Claude Max (200 $/mes) recupera la inversión en GPU en solo 2,5 meses. Incluso los usuarios de Claude Pro (20 $/mes) llegan al equilibrio en 6-8 meses si ya cuentan con hardware adecuado.

Limitaciones de los modelos locales

Sé realista sobre lo que los modelos locales no pueden hacer:

  • Inferencia más lenta (3-68x): las tareas sencillas tardan 5 veces más. Un análisis complejo de un repo puede tardar 68 veces más que con Claude en la nube.
  • Menor precisión en ediciones (70-80 % frente a 98 %): los modelos locales producen parches con números de línea incorrectos, espacios en blanco mal puestos y contexto desencajado. En una sesión de 50 ediciones, gastarás más tiempo arreglando parches rotos que escribiendo código.
  • Razonamiento multiarchivo más débil: Claude en la nube destaca al entender relaciones en grandes bases de código. Los modelos locales se degradan mucho con la complejidad.
  • Fiabilidad del tool calling: no todos los modelos lo soportan. Sin él, Claude Code se convierte en un simple generador de texto que describe acciones en lugar de ejecutarlas.
  • Sin tareas programadas: el trabajo automatizado recurrente solo funciona con Cowork en la nube.
  • Sin Computer Use: el control del escritorio (clics, escritura en apps) requiere Claude en la nube.
  • Sin plugins: la mayoría de plugins de Cowork requieren infraestructura en la nube.
  • Límites de la ventana de contexto: los modelos locales suelen tope en 128K tokens, frente a más de 200K de Claude en la nube.
  • Las llamadas a herramientas en streaming requieren Ollama 0.14.3-rc1+: la versión estable puede no manejar correctamente todos los escenarios de uso de herramientas.

Qué es posible con modelos locales

Pese a las limitaciones, los modelos locales desbloquean capacidades importantes:

  • Desarrollo 100 % offline: programa en aviones, en cafeterías sin WiFi o en redes restringidas.
  • Privacidad total de los datos: código propietario, PII, historiales médicos, contratos de defensa... nada sale de tu máquina.
  • RGPD y cumplimiento: elimina por completo las preocupaciones de transferencia transfronteriza de datos. Sin necesidad de DPAs.
  • Entornos air-gapped: defensa, sanidad y administraciones públicas pueden usar asistencia de programación con IA sin acceso a la red.
  • Uso ilimitado: sin límites de tasa, sin topes mensuales, sin throttling durante un uso intensivo.
  • Modelos personalizados afinados: entrena modelos sobre tu base de código para asistencia específica de dominio.
  • Flujos híbridos: usa local para trabajo sensible y nube para tareas complejas. Cambia al instante.
  • Experimentación a coste cero: prueba distintos modelos, enfoques y prompts sin vigilar el contador.

Solución de problemas

Error «Connection refused»

  • Asegúrate de que Ollama esté en marcha: ollama serve
  • Comprueba que el puerto no esté bloqueado: curl http://localhost:11434/api/tags
  • Verifica la versión de Ollama: ollama --version (debe ser 0.14.0+)

El modelo solo habla en lugar de actuar

Si Claude Code responde con «Leería el archivo...» en lugar de leerlo realmente, el tool calling no funciona:

  • Cambia a un modelo con soporte confirmado para herramientas: GLM-4.7-Flash o cualquier modelo en la nube
  • Actualiza Ollama a 0.14.3-rc1+ para llamadas a herramientas en streaming
  • Asegúrate de que ANTHROPIC_AUTH_TOKEN esté establecido en ollama, no en una clave de API real

Generación lenta (menos de 5 tok/s)

  • Baja a una cuantización menor: Q4_K_M en lugar de Q6_K
  • Reduce el contexto: ollama run glm-4.7-flash --num-ctx 32768
  • Cambia a GLM-4.7-Flash si estás usando un modelo denso (MoE = más rápido)
  • Plantéate usar modelos Ollama Cloud: ollama launch claude --model qwen3.5:cloud

Errores en peticiones de «role model»

Claude Code intenta usar «haiku» para tareas en segundo plano. Soluciónalo configurando el override de modelo pequeño en los ajustes de Claude Code para que use el mismo modelo local.

Preguntas frecuentes

¿Puedo usar Claude Cowork totalmente offline con modelos locales?

Sí. Una vez que hayas descargado tu modelo con Ollama, todo se ejecuta localmente. No se necesita internet para la inferencia. Sin embargo, algunas funciones de Cowork (tareas programadas, plugins, Computer Use) son exclusivas de la nube y no funcionarán sin conexión.

¿Es realmente gratis?

Ejecutar modelos locales mediante Ollama es totalmente gratis. Sin claves de API, sin facturación, sin suscripción. Los modelos en la nube de Ollama (como qwen3.5:cloud) también son gratis con límites generosos. El único coste de la inferencia realmente local es el hardware y la electricidad.

¿Cuál es el mejor modelo para Claude Code con Ollama?

GLM-4.7-Flash es la principal recomendación: 128K de contexto, tool calling nativo (79,5 % en benchmark) y se ejecuta con 16 GB de RAM gracias a su arquitectura mixture-of-experts. Para los modelos Ollama Cloud, Qwen 3.5 y GLM-5 ofrecen calidad de frontera a coste cero.

¿Cuánto más lento es lo local frente a la nube?

Espera entre 3 y 5 veces más lento en tareas sencillas, y hasta 68 veces más lento en análisis complejos multiarchivo. La diferencia de velocidad es el principal compromiso. Aun así, en muchas tareas de un solo archivo (explicación de código, ediciones simples, documentación), el retardo es tolerable (10-20 segundos frente a 3-5 segundos).

¿Puedo cambiar entre modelos locales y en la nube?

Sí. Usa modelos locales para trabajo sensible/privado y Claude en la nube para tareas complejas. Puedes cambiar simplemente modificando variables de entorno o usando perfiles de terminal separados.

¿La calidad iguala a Claude en la nube?

No. Los modelos locales puntúan al 85-90 % de Claude en la nube en tareas de un solo archivo, pero claramente peor en razonamiento multiarchivo (50-60 % de la calidad de la nube). La precisión en ediciones cae del 98 % al 70-80 %, lo que implica más correcciones manuales.

Conclusión

Claude Cowork con modelos locales no es un sustituto de Claude en la nube: es un complemento. El flujo ideal en 2026 se parece a esto:

  • Modelos locales → bases de código sensibles, experimentación ilimitada, trabajo offline, entornos privacy-first
  • Modelos Ollama Cloud → gratis, más rápidos que lo local, buena calidad, válidos para trabajo no sensible
  • Claude en la nube → razonamiento multiarchivo complejo, automatización programada, Computer Use, máxima calidad

La configuración lleva 5 minutos. El coste es cero. Si tienes un Mac con 16 GB+ de RAM o una GPU con 12 GB+ de VRAM, no hay razón para no probarlo. Empieza con ollama pull glm-4.7-flash y ollama launch claude: estarás programando con un agente de IA local en menos de un minuto.

Para más herramientas de programación con IA, explora nuestra reseña de Claude Opus 4.6 y nuestro Generador de imágenes con IA gratuito.

Tags:#claude cowork#modelos locales#ollama#claude code#programación con ia#herramientas de ia gratuitas#ia offline#claude desktop
S

Creator of PromptSpace · AI Researcher & Prompt Engineer

Building the largest free AI prompt library with 4,000+ prompts. Covering AI image generation, prompt engineering, and tool comparisons since 2024. 159+ articles published.

Related Articles

Explore More Articles

Free AI Prompts

Ready to Create Stunning AI Art?

Browse 4,000+ free, tested prompts for Midjourney, ChatGPT, Gemini, DALL-E & more. Copy, paste, create.