Herramientas IA

13 min readUpdated

Cómo usar Claude Cowork con modelos locales: guía completa de configuración (2026)

Ejecuta Claude Cowork con modelos locales mediante Ollama de forma gratuita. Configuración paso a paso, mejores modelos, benchmarks de rendimiento, limitaciones y comparativa completa. Sin clave de API.

Tweet WhatsApp LinkedIn

Cómo usar Claude Cowork con modelos locales: guía completa de configuración (2026)

¿Quieres ejecutar Claude Cowork con modelos locales: completamente gratis, sin conexión y privado? Desde enero de 2026, Ollama v0.14 incluye compatibilidad nativa con la API de Anthropic Messages, lo que significa que la herramienta agéntica de escritorio de Claude ya puede hablar directamente con modelos open source que se ejecuten en tu propio hardware. Sin clave de API. Sin suscripción. Sin que ningún dato salga de tu máquina.

Esta guía cubre todo: instalación, configuración, elección de modelo, benchmarks de rendimiento, limitaciones y una tabla comparativa completa entre Claude en la nube y la inferencia local. Tanto si eres un desarrollador preocupado por la privacidad como alguien que quiere usar Claude Cowork de forma ilimitada y a coste cero, esta es la guía de configuración definitiva para 2026.

💡

¿Ya usas herramientas de programación con IA? Echa un vistazo a nuestra comparativa entre Cursor, Windsurf y Claude Code para ver cómo encaja Cowork en el panorama general.

¿Qué es Claude Cowork?

Claude Cowork es la herramienta agéntica de escritorio de Anthropic que lleva las capacidades de Claude Code a Claude Desktop para tareas de conocimiento más allá del código. En lugar de responder a prompts uno a uno, Claude puede asumir tareas complejas de varios pasos y ejecutarlas en tu nombre: dar formato a documentos, organizar archivos, sintetizar investigaciones y automatizar flujos de trabajo.

Capacidades clave

Ejecución de tareas multipaso: describe un objetivo, vete a otra cosa y vuelve con el trabajo terminado
Acceso al sistema de archivos: leer, escribir y organizar archivos en tu ordenador
Tareas programadas: automatiza trabajo recurrente (función exclusiva de la nube)
Proyectos: espacios de trabajo persistentes con sus propios archivos, enlaces, instrucciones y memoria
Plugins: amplía la funcionalidad con skills, conectores y subagentes
Computer Use: controla apps de escritorio viendo, clicando y escribiendo

Cowork se ejecuta directamente en tu ordenador en una VM aislada, dando a Claude acceso a los archivos que tú elijas compartir. El código se ejecuta de forma segura en entornos sandbox mientras Claude realiza cambios reales en tus archivos.

¿Por qué usar modelos locales con Claude Cowork?

Ejecutar Claude Cowork contra APIs en la nube cuesta dinero y envía tus datos a servidores externos. Estas son las razones por las que los modelos locales cambian las reglas del juego:

Factor	Claude en la nube	Modelos locales
Coste	20-200 $/mes (planes Pro/Max)	0 $ tras el hardware
Privacidad	Datos enviados a los servidores de Anthropic	Todo permanece en tu máquina
Límites de uso	Topes de uso, sobre todo con tareas pesadas de Cowork	Ilimitado: ejecuta lo que quieras
Sin conexión	Requiere internet	Funciona totalmente offline
Residencia de datos	Preocupaciones de transferencia transfronteriza	Control total de RGPD/cumplimiento
Velocidad	60-80 tokens/seg	8-25 tokens/seg (depende del hardware)

El compromiso es claro: los modelos locales sacrifican velocidad a cambio de privacidad, ahorro y uso ilimitado. Para muchos flujos de trabajo —especialmente los que implican código sensible, documentos propietarios o entornos air-gapped— ese compromiso tiene mucho sentido.

Requisitos previos y de hardware

Antes de configurar modelos locales con Claude Cowork, asegúrate de que tu sistema cumple estos requisitos:

Requisitos de software

Ollama v0.14.0+ (necesario para la compatibilidad con la API Anthropic Messages)
Claude Code CLI instalado mediante curl -fsSL https://claude.ai/install.sh | bash
macOS 13+, Windows 10+ o Linux (se recomienda Ubuntu 20.04+)

Requisitos de hardware

Nivel	Hardware	Mejor modelo	Experiencia
Mínimo viable	16 GB de RAM (M1/M2) o RTX 3060 12 GB	GLM-4.7-Flash (Q4)	Usable para tareas de un solo archivo. Más lento en operaciones complejas.
Recomendado	32 GB de RAM (M1 Pro/Max) o RTX 4070 Ti 16 GB	Qwen3-Coder 30B (Q4)	Sólido para la mayoría de flujos de programación. El multiarchivo funciona, aunque más lento.
Ideal	64 GB+ de RAM (M2/M3/M4 Max) o RTX 4090 24 GB	Qwen2.5-Coder-32B (Q6)	La mejor experiencia local. Cuantización superior y mayor rendimiento.

Configuración paso a paso: Ollama + Claude Code

Paso 1: instala Ollama

macOS (Homebrew):

terminal

brew install ollama

Linux:

terminal

curl -fsSL https://ollama.com/install.sh | sh

Windows: descárgalo desde ollama.com

Verifica la instalación:

terminal

ollama --version
# Debe ser v0.14.0 o superior

Paso 2: descarga un modelo local

Elige un modelo con soporte de tool calling (necesario para las funciones agénticas de Claude Code):

terminal

# Mejor opción: 30B MoE, solo 3B de parámetros activos, funciona con 16 GB de RAM
ollama pull glm-4.7-flash

# Alternativa: modelo de código potente
ollama pull qwen3-coder

# Opción económica para máquinas de 8 GB
ollama pull devstral-small-2

Paso 3: instala Claude Code

macOS/Linux:

terminal

curl -fsSL https://claude.ai/install.sh | bash

Windows:

terminal

irm https://claude.ai/install.ps1 | iex

Paso 4: conecta Claude Code a Ollama

Método más rápido: un solo comando:

terminal

ollama launch claude

Esto configura automáticamente ANTHROPIC_AUTH_TOKEN, ANTHROPIC_BASE_URL y lanza Claude Code apuntando a tu instancia local de Ollama. Selecciona tu modelo de la lista y pulsa Enter.

Método manual: variables de entorno explícitas:

terminal

export ANTHROPIC_AUTH_TOKEN=ollama
export ANTHROPIC_BASE_URL=http://localhost:11434

# Lanza Claude Code
claude

O en línea, sin modificar tu perfil de shell:

terminal

ANTHROPIC_AUTH_TOKEN=ollama ANTHROPIC_BASE_URL=http://localhost:11434 claude

Paso 5: verifica la conexión

Una vez que Claude Code se haya iniciado, prueba un comando sencillo:

terminal

> Lee el directorio actual y lista todos los archivos

Si el modelo lee los archivos y responde con un listado real (en lugar de solo describir lo que haría), el tool calling está funcionando correctamente.

Configuración con LM Studio

LM Studio ofrece una interfaz gráfica para gestionar modelos locales:

Descarga LM Studio desde lmstudio.ai
Busca y descarga GLM-4.7-Flash o Qwen3-Coder
Ve a la pestaña Local Server → Start Server (puerto por defecto: 1234)
Configura Claude Code:

terminal

export ANTHROPIC_AUTH_TOKEN=lm-studio
export ANTHROPIC_BASE_URL=http://localhost:1234
claude

Los mejores modelos locales para Claude Cowork

Modelo	Parámetros	Contexto	Tool calling	RAM/VRAM necesaria	Mejor para
GLM-4.7-Flash ⭐	30B MoE (3B activos)	128K	Sí (79,5 %)	~6,5 GB (Q4)	Mejor equilibrio entre velocidad y capacidad
Qwen3-Coder	30B	128K	Sí	~20 GB (Q4)	Tareas de código exigentes
GPT-OSS:20B	20B	32K	Sí	~12 GB (Q4)	Buen propósito general
Devstral-Small-2	24B	128K	Sí	~16 GB (Q4)	Tareas centradas en código
Qwen2.5-Coder:32B	32B	128K	Limitado	~24 GB (Q4)	Programación compleja (requiere hardware potente)

Recomendación principal: GLM-4.7-Flash. Su arquitectura mixture-of-experts hace que solo se activen 3B de parámetros por token, a pesar de ser un modelo de 30B. Esto se traduce en inferencia rápida en hardware modesto (16 GB de RAM), manteniendo 128K de contexto y un buen tool calling (79,5 % en benchmarks de agentes).

Modelos en la nube gratuitos vía Ollama

¿No quieres ejecutar inferencia localmente? Ollama también hace de proxy con modelos en la nube gratuitos que tienen límites generosos:

Modelo	Contexto	Velocidad	Coste
qwen3.5:cloud	128K+	30-60 tok/s	Gratis (con límite de uso)
glm-5:cloud	128K+	30-60 tok/s	Gratis (con límite de uso)
kimi-k2.5:cloud	128K+	30-60 tok/s	Gratis (con límite de uso)
qwen3-coder:480b-cloud	128K+	30-60 tok/s	Gratis (con límite de uso)

terminal

# Usa un modelo en la nube gratuito a través de Ollama
ollama launch claude --model qwen3.5:cloud

Estos modelos se ejecutan en infraestructura remota pero usan la misma interfaz de Ollama. Tu código sigue yendo a servidores externos (no es realmente privado), pero es gratis y bastante más rápido que la inferencia local.

Comparativa completa: Claude en la nube frente a modelos locales

Aspecto	Claude en la nube (Sonnet/Opus)	Modelos locales (Ollama)	Modelos Ollama Cloud
Velocidad	60-80 tok/s	8-25 tok/s	30-60 tok/s
Calidad de código	98 % de precisión en ediciones	70-80 % de precisión en ediciones	85-95 % de precisión en ediciones
Razonamiento multiarchivo	Excelente	Aceptable (empeora con la complejidad)	Bueno
Tool calling	Siempre fiable	Depende del modelo (GLM es el mejor)	Fiable
Coste mensual	20-200 $	0 $ (solo electricidad)	0 $
Privacidad	Datos enviados a Anthropic	100 % local	Datos enviados al proveedor del modelo
Sin conexión	No	Sí	No
Límites de uso	Sí (las tareas pesadas de Cowork consumen más)	Ninguno	Sí (generosos)
Tareas programadas	Sí	No	No
Computer Use	Sí	No	No
Plugins	Soporte completo	Limitado	Limitado
Ventana de contexto	200K+	32K-128K (según el modelo)	128K+

Benchmarks de rendimiento

Cifras del mundo real procedentes de benchmarks publicados que comparan inferencia local y en la nube:

Throughput de tokens

Configuración	Tokens/seg	Notas
API de Claude (Sonnet 4)	60-80	Infraestructura de Anthropic
Modelo Ollama Cloud	30-60	Varía según el modelo y la carga
RTX 4070 Ti Super (32B Q4)	15-25	GPU de 489 $, 16 GB de VRAM
M1 Max 64 GB (GLM-4.7-Flash)	10-20	Memoria unificada de Apple Silicon
RTX 3060 12 GB (GLM-4.7-Flash)	8-15	GPU económica

Tiempos en tareas reales

Tarea	Claude en la nube	GLM-4.7 local (M1 Max)	Diferencia
Lectura y edición simple de archivo	~3 segundos	~15 segundos	5x más lento
Refactorización multiarchivo	~1 minuto	~12 minutos	12x más lento
Análisis completo de un repo	~1,2 minutos	~82 minutos	68x más lento

Puntuaciones de calidad de código (benchmark de 50 tareas)

Tipo de tarea	GLM-4.7-Flash	Qwen3-Coder	Claude Sonnet en la nube
Generación de funciones	3,9/5	4,1/5	4,4/5
Detección de bugs	3,5/5	3,8/5	4,6/5
Refactorización	3,7/5	4,0/5	4,3/5
Contexto multiarchivo	2,5/5	2,8/5	4,5/5
Explicación de código	4,0/5	4,2/5	4,1/5

Análisis de costes

Opción	Inversión inicial	Mensual	Total a 6 meses	Total a 12 meses
Plan Claude Pro	0 $	20 $	120 $	240 $
Plan Claude Max	0 $	100-200 $	600-1 200 $	1 200-2 400 $
GPU local (RTX 4070 Ti)	489 $	8-12 $ (electricidad)	537-561 $	585-633 $
Local (Apple Silicon, Mac existente)	0 $	3-5 $ (electricidad)	18-30 $	36-60 $
Modelos Ollama Cloud	0 $	0 $	0 $	0 $

Punto de equilibrio: un usuario intensivo de Claude Max (200 $/mes) recupera la inversión en GPU en solo 2,5 meses. Incluso los usuarios de Claude Pro (20 $/mes) llegan al equilibrio en 6-8 meses si ya cuentan con hardware adecuado.

Limitaciones de los modelos locales

Sé realista sobre lo que los modelos locales no pueden hacer:

Inferencia más lenta (3-68x): las tareas sencillas tardan 5 veces más. Un análisis complejo de un repo puede tardar 68 veces más que con Claude en la nube.
Menor precisión en ediciones (70-80 % frente a 98 %): los modelos locales producen parches con números de línea incorrectos, espacios en blanco mal puestos y contexto desencajado. En una sesión de 50 ediciones, gastarás más tiempo arreglando parches rotos que escribiendo código.
Razonamiento multiarchivo más débil: Claude en la nube destaca al entender relaciones en grandes bases de código. Los modelos locales se degradan mucho con la complejidad.
Fiabilidad del tool calling: no todos los modelos lo soportan. Sin él, Claude Code se convierte en un simple generador de texto que describe acciones en lugar de ejecutarlas.
Sin tareas programadas: el trabajo automatizado recurrente solo funciona con Cowork en la nube.
Sin Computer Use: el control del escritorio (clics, escritura en apps) requiere Claude en la nube.
Sin plugins: la mayoría de plugins de Cowork requieren infraestructura en la nube.
Límites de la ventana de contexto: los modelos locales suelen tope en 128K tokens, frente a más de 200K de Claude en la nube.
Las llamadas a herramientas en streaming requieren Ollama 0.14.3-rc1+: la versión estable puede no manejar correctamente todos los escenarios de uso de herramientas.

Qué es posible con modelos locales

Pese a las limitaciones, los modelos locales desbloquean capacidades importantes:

Desarrollo 100 % offline: programa en aviones, en cafeterías sin WiFi o en redes restringidas.
Privacidad total de los datos: código propietario, PII, historiales médicos, contratos de defensa... nada sale de tu máquina.
RGPD y cumplimiento: elimina por completo las preocupaciones de transferencia transfronteriza de datos. Sin necesidad de DPAs.
Entornos air-gapped: defensa, sanidad y administraciones públicas pueden usar asistencia de programación con IA sin acceso a la red.
Uso ilimitado: sin límites de tasa, sin topes mensuales, sin throttling durante un uso intensivo.
Modelos personalizados afinados: entrena modelos sobre tu base de código para asistencia específica de dominio.
Flujos híbridos: usa local para trabajo sensible y nube para tareas complejas. Cambia al instante.
Experimentación a coste cero: prueba distintos modelos, enfoques y prompts sin vigilar el contador.

Solución de problemas

Error «Connection refused»

Asegúrate de que Ollama esté en marcha: ollama serve
Comprueba que el puerto no esté bloqueado: curl http://localhost:11434/api/tags
Verifica la versión de Ollama: ollama --version (debe ser 0.14.0+)

El modelo solo habla en lugar de actuar

Si Claude Code responde con «Leería el archivo...» en lugar de leerlo realmente, el tool calling no funciona:

Cambia a un modelo con soporte confirmado para herramientas: GLM-4.7-Flash o cualquier modelo en la nube
Actualiza Ollama a 0.14.3-rc1+ para llamadas a herramientas en streaming
Asegúrate de que ANTHROPIC_AUTH_TOKEN esté establecido en ollama, no en una clave de API real

Generación lenta (menos de 5 tok/s)

Baja a una cuantización menor: Q4_K_M en lugar de Q6_K
Reduce el contexto: ollama run glm-4.7-flash --num-ctx 32768
Cambia a GLM-4.7-Flash si estás usando un modelo denso (MoE = más rápido)
Plantéate usar modelos Ollama Cloud: ollama launch claude --model qwen3.5:cloud

Errores en peticiones de «role model»

Claude Code intenta usar «haiku» para tareas en segundo plano. Soluciónalo configurando el override de modelo pequeño en los ajustes de Claude Code para que use el mismo modelo local.

Preguntas frecuentes

¿Puedo usar Claude Cowork totalmente offline con modelos locales?

Sí. Una vez que hayas descargado tu modelo con Ollama, todo se ejecuta localmente. No se necesita internet para la inferencia. Sin embargo, algunas funciones de Cowork (tareas programadas, plugins, Computer Use) son exclusivas de la nube y no funcionarán sin conexión.

¿Es realmente gratis?

Ejecutar modelos locales mediante Ollama es totalmente gratis. Sin claves de API, sin facturación, sin suscripción. Los modelos en la nube de Ollama (como qwen3.5:cloud) también son gratis con límites generosos. El único coste de la inferencia realmente local es el hardware y la electricidad.

¿Cuál es el mejor modelo para Claude Code con Ollama?

GLM-4.7-Flash es la principal recomendación: 128K de contexto, tool calling nativo (79,5 % en benchmark) y se ejecuta con 16 GB de RAM gracias a su arquitectura mixture-of-experts. Para los modelos Ollama Cloud, Qwen 3.5 y GLM-5 ofrecen calidad de frontera a coste cero.

¿Cuánto más lento es lo local frente a la nube?

Espera entre 3 y 5 veces más lento en tareas sencillas, y hasta 68 veces más lento en análisis complejos multiarchivo. La diferencia de velocidad es el principal compromiso. Aun así, en muchas tareas de un solo archivo (explicación de código, ediciones simples, documentación), el retardo es tolerable (10-20 segundos frente a 3-5 segundos).

¿Puedo cambiar entre modelos locales y en la nube?

Sí. Usa modelos locales para trabajo sensible/privado y Claude en la nube para tareas complejas. Puedes cambiar simplemente modificando variables de entorno o usando perfiles de terminal separados.

¿La calidad iguala a Claude en la nube?

No. Los modelos locales puntúan al 85-90 % de Claude en la nube en tareas de un solo archivo, pero claramente peor en razonamiento multiarchivo (50-60 % de la calidad de la nube). La precisión en ediciones cae del 98 % al 70-80 %, lo que implica más correcciones manuales.

Conclusión

Claude Cowork con modelos locales no es un sustituto de Claude en la nube: es un complemento. El flujo ideal en 2026 se parece a esto:

Modelos locales → bases de código sensibles, experimentación ilimitada, trabajo offline, entornos privacy-first
Modelos Ollama Cloud → gratis, más rápidos que lo local, buena calidad, válidos para trabajo no sensible
Claude en la nube → razonamiento multiarchivo complejo, automatización programada, Computer Use, máxima calidad

La configuración lleva 5 minutos. El coste es cero. Si tienes un Mac con 16 GB+ de RAM o una GPU con 12 GB+ de VRAM, no hay razón para no probarlo. Empieza con ollama pull glm-4.7-flash y ollama launch claude: estarás programando con un agente de IA local en menos de un minuto.

Para más herramientas de programación con IA, explora nuestra reseña de Claude Opus 4.6 y nuestro Generador de imágenes con IA gratuito.

Tags:#claude cowork#modelos locales#ollama#claude code#programación con ia#herramientas de ia gratuitas#ia offline#claude desktop

All Articles

Written by Shahrukh

Creator of PromptSpace · AI Researcher & Prompt Engineer

Building the largest free AI prompt library with 4,000+ prompts. Covering AI image generation, prompt engineering, and tool comparisons since 2024. 159+ articles published.

¿Qué es Claude Cowork?

Capacidades clave

¿Por qué usar modelos locales con Claude Cowork?

Requisitos previos y de hardware

Requisitos de software

Requisitos de hardware

Configuración paso a paso: Ollama + Claude Code

Paso 1: instala Ollama

Paso 2: descarga un modelo local

Paso 3: instala Claude Code

Paso 4: conecta Claude Code a Ollama

Paso 5: verifica la conexión

Configuración con LM Studio

Los mejores modelos locales para Claude Cowork

Modelos en la nube gratuitos vía Ollama

Comparativa completa: Claude en la nube frente a modelos locales

Benchmarks de rendimiento

Throughput de tokens

Tiempos en tareas reales

Puntuaciones de calidad de código (benchmark de 50 tareas)

Análisis de costes

Limitaciones de los modelos locales

Qué es posible con modelos locales

Solución de problemas

Error «Connection refused»

El modelo solo habla en lugar de actuar

Generación lenta (menos de 5 tok/s)

Errores en peticiones de «role model»

Preguntas frecuentes

¿Puedo usar Claude Cowork totalmente offline con modelos locales?

¿Es realmente gratis?

¿Cuál es el mejor modelo para Claude Code con Ollama?

¿Cuánto más lento es lo local frente a la nube?

¿Puedo cambiar entre modelos locales y en la nube?

¿La calidad iguala a Claude en la nube?

Conclusión

Related Articles

50 Best Free AI Image Generators in 2026

AI Video Generator: Create Free Videos in 2026

AI Logo Design: Create Free Logos with AI in 2026

Explore More Articles

Getting Started with AI Image Generation

Best Practices for Writing AI Prompts

Top 100 Midjourney Prompts for 2026 - The Ultimate Collection

Best AI Prompts for Instagram Reels - Go Viral in 2026

Free Prompts for Viral AI Content - The Creator's Playbook

FLUX vs Midjourney vs DALL-E 3 - Which AI Image Generator Wins in 2026?

Ready to Create Stunning AI Art?