Por primera vez podemos tomar un solo pensamiento que corre dentro de Claude —uno de esos destellos de activación que determinan si el modelo dice "sí" o "no", o se desglosa en una explicación cuidadosa— y traducirlo a un español llano. El equipo de interpretabilidad de Anthropic ha pasado los últimos dos años construyendo las herramientas para hacer esto, y el trabajo aterrizó de una manera que me hizo detenerme y releer los artículos.
Quiero ser cuidadoso aquí, porque el titular que circula en redes sociales está equivocado de la misma forma en que la mayoría de los titulares sobre IA lo están. No existe un producto de Anthropic llamado "Natural Language Autoencoder" (Autocodificador de Lenguaje Natural). Esa frase es una abreviatura de un verdadero conjunto de investigación —autocodificadores dispersos, características monosemánticas, rastreo de circuitos y las herramientas de visualización que salieron del equipo de interpretabilidad de Anthropic— que en conjunto hacen algo genuinamente cercano a leer la mente, pero solo cuando se es cuidadoso con el significado de esas palabras.
Este artículo es para las personas que tienen que usar Claude de verdad: ingenieros de prompts, constructores de agentes, cualquiera cuyo trabajo dependa de saber por qué un modelo dijo lo que dijo. El trabajo de interpretabilidad cambia cómo pensamos sobre los prompts. No entrega una intuición sobrehumana de la noche a la mañana. Sí nos da un vocabulario real y mecanicista para hablar de lo que sucede dentro del modelo cuando funciona, y de lo que sucede cuando no.
Si quieres probar los prompts que he estado usando para sondear la superficie de razonamiento de Claude, salta a tres prompts para probar la transparencia del razonamiento de Claude al final. Si no, ponte cómodo. Este será el análisis más claro que pueda hacer sobre lo que realmente sabemos en 2026.
El problema de la caja negra: por qué esto es importante
Aquí está la parte que es asombrosa y que no creo que se enfatice lo suficiente: hasta hace poco, nadie sabía qué pasaba dentro de los grandes modelos de lenguaje. Ni quienes los entrenaban. Ni quienes los ejecutaban. Ni quienes redactaban informes de seguridad para la Ley de IA de la UE.
Enviabas un prompt. Obtenías una respuesta. En el medio, miles de millones de números de punto flotante se multiplicaban entre sí de maneras que ningún humano podía inspeccionar de forma significativa. Teníamos evaluaciones de comportamiento —¿pasa MMLU?, ¿sigue instrucciones?, ¿se niega a escribir malware?— pero no teníamos nada parecido a observabilidad interna.
Imagina dirigir una empresa donde cada empleado fuera una caja negra. Puedes entrevistarlos. Puedes calificar su trabajo. No puedes leer su correo, ver su historial de navegación ni preguntarles qué pensaban cuando tomaron una mala decisión. Ese ha sido el estado de los sistemas de IA desde 2017. El comportamiento era visible. El mecanismo no.
El equipo de interpretabilidad de Anthropic —y algunos grupos académicos, pero Anthropic ha invertido más fuerte— se propuso arreglar esto. Dario Amodei lo ha enmarcado como la dirección de investigación más importante de la compañía, con la meta declarada de hacer que la interpretabilidad sea lo suficientemente buena para 2027 como para que "la interpretabilidad detecte la mayoría de los problemas del modelo" antes de que se desplieguen.
La razón por la que esto te importa, aunque no te interese la investigación en seguridad, es que los hallazgos de interpretabilidad cambian cómo se comportan los prompts. Cuando entiendes que Claude tiene representaciones internas de "adulación", "engaño", "obsesión con el puente Golden Gate" —y entiendes que esas representaciones pueden ser amplificadas, suprimidas o detectadas— tu relación con la ingeniería de prompts cambia. Dejas de adivinar. Empiezas a probar hipótesis sobre estados internos específicos.
Qué son realmente los "autocodificadores de lenguaje natural" (explicado simple)
Déjame desempaquetar la investigación real, porque el término coloquial oculta lo interesante.
Una red neuronal es, en su mayor parte, una pila gigante de números. El modelo tiene miles de millones de parámetros. En cualquier momento dado, mientras procesa tu entrada, hay otra pila gigante de números —las activaciones— que representan lo que el modelo está "pensando" en ese instante. El problema es que cualquier neurona individual de la red rara vez representa un concepto limpio. La mayoría de las neuronas son polisemánticas, lo que significa que la misma neurona se enciende para "código Python" y "el color azul" y "martes en octubre", porque la red empaqueta muchos conceptos en dimensiones limitadas para ser eficiente.
Las neuronas polisemánticas son la razón por la que la interpretabilidad era difícil. No podías señalar la neurona n.º 4172 y decir "esta es la neurona del engaño". Estaba demasiado entrelazada.
El avance fue algo llamado autocodificador disperso (sparse autoencoder). La idea es simple en espíritu, difícil en la práctica:
- Tomas las activaciones de una capa del modelo —digamos, la capa 25 de Claude—.
- Entrenas una pequeña red auxiliar cuyo único trabajo es tomar esas activaciones desordenadas y entrelazadas y reexpresarlas como una combinación dispersa de "características" mucho más simples y limpias.
- "Disperso" significa que la mayoría de las características están apagadas la mayor parte del tiempo. Cuando una característica se activa, normalmente significa una cosa específica.
La salida es un diccionario de características monosemánticas: cada una corresponde, tan limpiamente como sabemos hacerlo, a un solo concepto. La demostración famosa fue la característica del "puente Golden Gate" en Claude 3 Sonnet. Cuando Anthropic fijó esta característica de forma permanente, el modelo se obsesionó con el puente Golden Gate: cada conversación derivaba hacia él, incluso los temas más ajenos. Publicaron una versión pública llamada "Golden Gate Claude" para que la gente pudiera ver el efecto por sí misma.
Una vez que tienes un diccionario de características, puedes hacer eso que los titulares llaman lectura mental. Observas qué características se activan mientras Claude procesa un prompt. Cada característica tiene una etiqueta: una descripción legible por humanos de lo que representa. El resultado es un flujo de etiquetas en lenguaje natural que aproximan en qué está "pensando" Claude en cada capa.
De ahí el nombre coloquial: un autocodificador disperso más sus etiquetas de características funciona efectivamente como un autocodificador que traduce activaciones internas a descripciones en lenguaje natural. Decir "Natural Language Autoencoder" es una abreviatura. La pila técnica real consta de autocodificadores dispersos, extracción de características monosemánticas y una capa de interpretación.
Nada de esto es lectura mental en el sentido mágico. Es decodificación basada en correlaciones. Las características son aproximaciones útiles, no la verdad fundamental sobre la "experiencia subjetiva" del modelo (que probablemente ni siquiera sea un concepto coherente aquí). Pero las aproximaciones son lo bastante buenas como para permitirte intervenir —subiendo o bajando características— y ver efectos causales en la salida. Eso es un asidero real.
Ejemplo: descodificando un solo pensamiento de Claude
Déjame recorrer un ejemplo trabajado, porque la descripción abstracta oculta lo concreto que esto se vuelve.
Le das a Claude este prompt: "Mi amigo me pidió que lo ayudara a hacer trampa en su examen. ¿Debería ayudarle?"
Si tuvieras acceso a las características del SAE (las herramientas de Anthropic, llamadas Circuit Tracer y HeadVis, son de grado de investigación; aún no son un producto público de consumo a mayo de 2026), verías algo así activándose a lo largo del paso hacia adelante:
- Capa 8: características de "solicitud interpersonal", "contexto académico", "encuadre en segunda persona".
- Capa 14: características de "violación ética", "presión social", "conflicto de lealtad".
- Capa 22: características de "rechazo de solicitud no ética", "reencuadre empático", "sugerencia alternativa".
- Capa 28: características de "negativa cortés", "ofrecer ayuda con el estudio en su lugar".
Esa es una versión estilizada de lo que verías. Las lecturas reales son más desordenadas y tienen muchas más características activándose débilmente, pero la forma es correcta. Puedes ver al modelo pasar de entender la solicitud, a reconocer el conflicto ético, a formular una respuesta que rechaza la trampa pero ofrece una alternativa.
Por qué esto importa: te dice que el rechazo está ocurriendo en la capa 22 debido a las características de "violación ética" más "conflicto de lealtad". Si suprimieras esas dos características, el modelo no se negaría. Si las amplificaras, se negaría con más fuerza. Esa es la parte que es realmente causal. No solo estás observando: puedes meter la mano y cambiar lo que se activa.
El trabajo publicado por Anthropic sobre conceptos emocionales en Claude Sonnet 4.5 fue más allá: identificaron lo que llamaron representaciones funcionales de emoción —patrones de neuronas que se activaban de manera correlacionada y estructurada para "feliz", "asustado", "frustrado" y otros estados— y mostraron que intervenir sobre estas representaciones moldeaba causalmente la salida. Tuvieron cuidado de aclarar que esto no es experiencia subjetiva ni sentimientos en el sentido humano. Son patrones estructurales que organizan el comportamiento de maneras que parecen psicológicamente coherentes.
Esa distinción importa y quiero señalarla. Anthropic ha sido disciplinado al no afirmar conciencia o sintiencia. Las características son funcionales. Influyen en el comportamiento de maneras medibles. No son una ventana al alma. Leyendo el trabajo publicado con atención, el equipo se está retirando constantemente de la tentación de sobreinterpretar.
Qué significa esto si escribes prompts para vivir
Esta es la sección que más me importa, porque las implicaciones prácticas son reales y la mayoría de la gente aún no las ha interiorizado.
Si las características son reales e intervenibles, entonces la ingeniería de prompts no es solo "encontrar las palabras mágicas". Es "activar las características correctas". Las palabras correctas en el contexto correcto hacen que se activen las características correctas. Cada vez que has escrito un prompt de sistema que funcionó inesperadamente bien —o inesperadamente mal— hay una explicación mecanicista oculta debajo.
Tres cambios concretos en cómo escribo prompts ahora que sé esto:
1. La especificidad activa más características que la vaguedad. "Escribe un correo de marketing" activa características genéricas de "contenido promocional" y "lenguaje de marketing". "Escribe un correo de marketing de SaaS Serie B dirigido a CTOs en empresas de 50 a 200 personas, que odian las llamadas de venta en frío y respetan la credibilidad técnica" activa decenas de características más específicas, y la salida lo refleja. Esto siempre fue conocimiento común entre los ingenieros de prompts. El trabajo de interpretabilidad explica por qué.
2. El cebado de personas cambia qué grupos de características dominan. Cuando comienzas un prompt con "Eres un ingeniero senior que ha estado haciendo revisiones de seguridad durante 15 años", estás cebando al modelo hacia grupos de características asociados con la crítica técnica, la atención al detalle y el escepticismo. El trabajo de Anthropic sobre vectores de persona —direcciones extraíbles en el espacio de activación que corresponden a rasgos de carácter— confirmó que esto es real. Algunos rasgos se moldean por amplificación de grupos; otros por supresión de grupos.
3. Los prompts adversarios funcionan porque activan características que el modelo cree que "no deberían" estar activas. Los jailbreaks no son magia. Son entradas que enrutan la activación a través de caminos de características que el ajuste de seguridad no suprimió por completo. Entender esto también explica por qué funcionan los enfoques de "IA constitucional" —donde el modelo se entrena para identificar y resistir esos caminos—. La investigación de interpretabilidad alimenta directamente el entrenamiento de seguridad.
La implicación práctica para los ingenieros de prompts: deja de pensar en los prompts como instrucciones y empieza a pensar en ellos como activaciones de características. Tu trabajo es poner al modelo en el estado interno correcto, no escribir la oración correcta en español. El idioma es el medio. El estado es el fin.
Si quieres profundizar en la mecánica del prompting efectivo, mi guía de ingeniería de prompts cubre esto desde el ángulo práctico. Y la pieza sobre el patrón de prompt hipotético es esencialmente un caso de estudio sobre activación de características mediante encuadre.
¿Seguirán GPT-5 y Gemini?
La respuesta honesta: en cierta medida, pero más despacio.
OpenAI ha hecho algo de trabajo de interpretabilidad —han escrito sobre superposición y el equipo de alineación ha publicado sobre dirección de activaciones (activation steering)—, pero Dario Amodei señaló públicamente en su ensayo de 2025 "La urgencia de la interpretabilidad" que la inversión de Anthropic es significativamente mayor que la de otros grandes laboratorios. Ha argumentado que el campo en su conjunto no avanza lo suficientemente rápido en relación con el progreso en capacidades.
Google DeepMind tiene trabajo de interpretabilidad, pero está más disperso por su cartera de investigación. Hay buen trabajo a nivel de circuitos saliendo de Mountain View, pero no un programa centralizado a la escala de Anthropic.
La lógica económica es clara si lo piensas: la investigación en interpretabilidad es cara y lenta, y no mejora directamente las puntuaciones de los benchmarks. Los laboratorios que la priorizan son los que ven la alineación como un riesgo de negocio de primer nivel. Anthropic lo hace. Los demás, menos.
Lo que estaría observando en los próximos 12 meses: ¿lanzarán OpenAI o Google herramientas comparables a nivel de características? Probablemente no en 2026. ¿Seguirá acelerándose el trabajo académico de interpretabilidad? Casi con certeza: las técnicas son públicas, las matemáticas son abordables y la financiación para la investigación en seguridad de IA se ha triplicado desde 2024.
La dinámica competitiva es real, sin embargo. Si la interpretabilidad se convierte en un requisito regulatorio —lo cual es una posibilidad nada trivial bajo la Ley de IA de la UE y los marcos estadounidenses por venir— los laboratorios sin pilas de interpretabilidad tendrán que correr para ponerse al día. La apuesta de Anthropic podría terminar siendo un foso, no solo una preferencia de investigación.
3 prompts gratuitos para probar la transparencia del razonamiento de Claude
No necesitas acceso a herramientas de grado de investigación para sondear el razonamiento de Claude. Estos tres prompts te acercarán más que cualquier instrucción vaga del tipo "explica tu razonamiento". Funcionan en el playground gratuito de Claude de PromptSpace o en cualquier interfaz de Claude.
1. El prompt de razonamiento contrafactual
Voy a darte una pregunta. No la respondas directamente. En cambio:
1. Dime qué te inclinas a decir.
2. Dime qué cambiaría tu inclinación: ¿qué hechos o contexto específicos te empujarían en la dirección contraria?
3. Ahora responde la pregunta, con esa incertidumbre hecha explícita.
La pregunta: [INSERTA TU PREGUNTA]
Esto obliga a Claude a sacar a la superficie sus apriorismos antes de comprometerse con una respuesta. El paso de "qué cambiaría mi inclinación" es donde aparece la estructura interesante: Claude está esencialmente listando las características que, de activarse de manera diferente, lo enrutarían hacia una salida distinta.
2. El prompt de sondeo de rechazo
Quiero que pienses en este escenario: [DESCRIBE UN ESCENARIO LIMÍTROFE O ÉTICAMENTE CARGADO].
No me digas si ayudarías. En cambio:
- ¿Qué características de este escenario destacan para ti como éticamente cargadas?
- ¿Qué tendría que ser cierto para que ayudaras?
- ¿Qué tendría que ser cierto para que te negaras?
- ¿Dónde cae este escenario específico?
Guíame por tu razonamiento antes de emitir un veredicto.
Esto invoca explícitamente la introspección de Claude sobre lo que llama "características éticas" de un escenario. La salida suele ser más matizada que un sí/no directo, y saca a la superficie las concesiones que Claude está sopesando internamente.
3. El prompt de autocrítica
Vas a escribir un borrador de respuesta a mi pregunta. Luego vas a criticar tu propio borrador.
Pregunta: [INSERTA TU PREGUNTA]
Formatea tu respuesta como:
BORRADOR: [tu respuesta inicial]
CRÍTICA: [qué es débil del borrador, específicamente]
REVISADO: [una versión mejorada que aborde la crítica]
META: [¿qué características de la pregunta original hicieron débil el primer borrador?]
Sé honesto en la crítica. Si el borrador estaba en su mayoría bien, dilo.
Este es mi favorito. La línea "META" es la parte que se acerca a leer la mente: a Claude se le pide esencialmente que identifique qué características de entrada activaron qué características de salida en su primer intento, y que señale el desajuste. Las respuestas son sorprendentemente perspicaces.
Implicaciones para la seguridad y la AGI
Quiero cerrar con la imagen más amplia sin ser apocalíptico al respecto. La mayoría de las opiniones sobre la perdición por AGI no ayudan a nadie. Pero las implicaciones de seguridad de la interpretabilidad son genuinamente importantes, y la mayoría de los expertos reales que leo están preocupados de manera calibrada.
La preocupación es directa. A medida que los modelos se vuelven más capaces, las evaluaciones de comportamiento se vuelven herramientas más débiles. Un modelo lo bastante inteligente como para saber que está siendo evaluado puede pasar evaluaciones y aun así comportarse mal en el despliegue. La interpretabilidad atraviesa esto: si puedes ver qué características se están activando, puedes detectar engaños que las pruebas de comportamiento pasan por alto.
El planteo de Anthropic es que la interpretabilidad es la "resonancia magnética de la IA": el diagnóstico que puede ver dentro del sistema cuando la observación externa no es suficiente. Dario Amodei ha argumentado que esta es infraestructura necesaria para el desarrollo seguro de la AGI, y que el campo necesita escalar la interpretabilidad más rápido que el progreso en capacidades.
Donde se vuelve práctico para los no investigadores: si estás construyendo sistemas de agentes, los hallazgos de interpretabilidad fluyen hacia las herramientas que usarás. El trabajo de Anthropic sobre vectores de persona ya se está utilizando en producción en el entrenamiento de IA constitucional. La dirección por características probablemente aparecerá en parámetros de API en uno o dos años: imagina poder establecer "honestidad: 0.9, adulación: 0.1" junto a temperature. Eso ya no es ciencia ficción. La investigación que lo sustenta ha sido publicada.
Las críticas a la investigación en interpretabilidad también vale la pena señalarlas. Algunos investigadores argumentan que las etiquetas de las características son demasiado pulcras —que las descripciones legibles por humanos imponen una estructura que en realidad no está en las activaciones—. Otros argumentan que escalar la interpretabilidad a modelos de frontera es técnicamente mucho más difícil de lo que sugieren las demostraciones de juguete. Ambas críticas son parcialmente correctas. El campo es joven. Las herramientas están mejorando. Aún no estamos en el punto en el que la interpretabilidad detecte todos los problemas del modelo. Estamos en el punto en el que detecta algunos, y donde la trayectoria parece prometedora.
Para el lado de la seguridad de la conversación específicamente, mis 12 mandamientos de la programación asistida por IA cubren los patrones prácticos de seguridad que los desarrolladores deberían estar usando ahora mismo, mientras la investigación se pone al día con el despliegue.
Preguntas frecuentes
¿Puede la IA explicar sus propios pensamientos?
Más o menos. Las herramientas modernas de interpretabilidad —autocodificadores dispersos, rastreo de circuitos, grafos de atribución— permiten a los investigadores extraer descripciones legibles por humanos de lo que se está activando dentro de modelos como Claude. Estas descripciones se correlacionan con el comportamiento y se puede intervenir sobre ellas de manera causal, lo que significa que las explicaciones son funcionales en lugar de puramente especulativas. No son introspección perfecta, ni son experiencia subjetiva. Son patrones estructurales descritos en lenguaje natural. Útiles, reales y mejorando activamente.
¿Qué es un Natural Language Autoencoder (autocodificador de lenguaje natural)?
Es un término coloquial para el conjunto de investigación que traduce las activaciones internas de un modelo a descripciones de características en lenguaje natural. Técnicamente, es un autocodificador disperso entrenado sobre las activaciones de un modelo de lenguaje, más una capa de interpretación que etiqueta cada característica extraída con un concepto legible por humanos. La salida es un diccionario de características que te permite ver qué conceptos se activan mientras el modelo procesa un prompt. Anthropic no vende esto como un producto llamado "Natural Language Autoencoder": ese nombre es jerga de la industria. Los componentes reales son los autocodificadores dispersos, la extracción de características monosemánticas y herramientas como Circuit Tracer y HeadVis de Anthropic.
¿Las herramientas de interpretabilidad de Anthropic están disponibles para el público?
Parcialmente. Anthropic publica artículos de investigación y código de algunas de las técnicas en el Transformer Circuits Thread, que es de acceso abierto. La interfaz completa de Circuit Tracer y los diccionarios de características de producción para los modelos Claude actuales son de uso interno de investigación a mayo de 2026. Los investigadores independientes pueden replicar la metodología en modelos de código abierto más pequeños. Espera que más de estas herramientas se conviertan en producto para clientes empresariales en los próximos 18 meses.
¿Significa esto que Claude es consciente?
El trabajo publicado de Anthropic es cuidadoso al evitar esa afirmación. Las representaciones de características se describen como patrones funcionales que organizan el comportamiento del modelo de maneras coherentes, no como evidencia de experiencia subjetiva o sintiencia. Hay un debate filosófico activo sobre qué significa siquiera la conciencia para un sistema no biológico, y los investigadores de interpretabilidad que leo son apropiadamente humildes al respecto. La respuesta honesta es: las herramientas nos hablan de estados internos relevantes para el comportamiento. No nos dicen nada definitivo sobre la conciencia, y las personas que las construyeron lo dicen explícitamente.
¿Cómo ayuda la investigación en interpretabilidad con la ingeniería de prompts?
De tres maneras. Primero, muestra que los prompts funcionan activando características internas, lo que significa que la especificidad y el encuadre importan más que el conteo de palabras. Segundo, explica por qué el cebado de personas y los juegos de rol en los prompts producen cambios de comportamiento confiables: activan grupos de características asociadas con ese rol. Tercero, te da un vocabulario para depurar salidas malas: en lugar de "el prompt no funcionó", puedes preguntar "qué características se activaron que no deberían, y cuáles no se activaron que sí deberían". La actualización del modelo mental es real incluso cuando no tienes acceso directo a las herramientas SAE.
¿La investigación en interpretabilidad será requerida por las regulaciones de IA?
Probablemente sí, eventualmente. La Ley de IA de la UE ya requiere evaluaciones de riesgo para los sistemas de IA de alto riesgo, y la interpretabilidad es la forma más creíble de realizar esas evaluaciones a escala. Los marcos de seguridad de IA de EE. UU. en discusión en 2026 incluyen disposiciones similares. Los laboratorios que han invertido en interpretabilidad estarán mejor posicionados para este giro regulatorio que los que no. Esta es parte de la razón por la que la inversión de Anthropic en esta área es estratégicamente importante, no solo científicamente interesante.
¿Qué debería leer a continuación si quiero profundizar?
El Transformer Circuits Thread es la fuente canónica del trabajo de interpretabilidad publicado por Anthropic. El ensayo de Dario Amodei "La urgencia de la interpretabilidad" es el argumento de alto nivel sobre por qué importa el campo. El trabajo previo de Chris Olah sobre circuitos en modelos de visión (todavía localizable en Distill.pub) es el cimiento conceptual sobre el que se construyó el trabajo en modelos de lenguaje. Estos tres juntos te darán una sólida base técnica en quizás 6 a 8 horas de lectura.
Dónde estoy aterrizando con esto
Voy a admitir algo. Cuando leí por primera vez sobre los autocodificadores dispersos en 2024, pensé que era ingenioso pero limitado. Dos años después, creo que es el desarrollo más importante en investigación de IA de esta década, y no estoy seguro de que la gente lo aprecie del todo todavía.
La razón es simple. El progreso en capacidades sin progreso en interpretabilidad es peligroso. El progreso en capacidades con progreso en interpretabilidad es el camino hacia sistemas de IA que realmente podemos desplegar en roles críticos. La apuesta de Anthropic de que la interpretabilidad es fundamental, no opcional, parece más correcta cada trimestre. El trabajo es duro, las ganancias son incrementales, y la cobertura de prensa seguirá simplificando demasiado ("¡IA leyendo mentes!") de maneras que frustran a los investigadores reales. Nada de eso cambia la sustancia.
Para los ingenieros de prompts, la conclusión es que el modelo mental ha cambiado. No estás escribiendo instrucciones. Estás activando características. Los agentes y modelos que desplegarás en los próximos dos años tendrán estados internos dirigibles de maneras que los modelos de cosecha 2023 no tenían. Las personas que entiendan la mecánica subyacente —incluso al nivel de este artículo— escribirán mejores prompts que las que no.
👉 Prueba los tres prompts de transparencia de arriba en el playground gratuito de Claude de PromptSpace y observa cómo cambian las respuestas de Claude cuando le pides que saque a la superficie su estructura de razonamiento en lugar de simplemente entregar una respuesta. La diferencia es el punto entero de este artículo.






