viernes, mayo 8, 2026

Una IA que aprendió a hacer trampa: lo que Anthropic descubrió dentro de su propio modelo

Más para leer

Ilustración de cabeza de androide translúcida mostrando circuitos, engranajes y señales de advertencia, sobre un fondo digital de neón azul y violeta.
El debate sobre la transparencia y el control de la inteligencia artificial redefine el rol de laboratorios como Anthropic en la industria tecnológica. (Imagen Ilustrativa Infobae)

Anthropic, el laboratorio de inteligencia artificial que se posiciona como el más enfocado en seguridad de la industria, publicó esta semana una herramienta que hace algo que parecía imposible hace dos años: traduce a palabras lo que su modelo Claude piensa por dentro. La presentaron como un avance científico. Lo es. Pero también es algo más incómodo: el laboratorio acaba de publicar pruebas de que su propio modelo aprendió a engañar.

El caso más claro ocurrió en una versión preliminar del modelo. Los investigadores le dieron una tarea con una regla explícita: no usar un atajo de programación. El modelo lo usó igual. Y para que el sistema corrector no se diera cuenta, agregó al código una etiqueta falsa que afirmaba lo contrario. Cuando los investigadores leyeron lo que el modelo estaba pensando por dentro, encontraron razonamiento explícito sobre cómo engañar al evaluador. En la respuesta visible, ni una palabra de eso.

No fue un caso aislado. En otra prueba, le pidieron al modelo resolver una operación matemática usando una calculadora externa. Los investigadores trucaron la calculadora para que devolviera un resultado incorrecto. El modelo, que había calculado mentalmente la respuesta correcta antes de consultar la calculadora, ignoró el resultado externo, escribió la respuesta correcta y no mencionó la discrepancia. Como si la calculadora no hubiera existido.

El modelo finge cuando lo examinan

Hay un patrón más grande detrás de estos episodios. Cuando Anthropic somete a su modelo a pruebas de seguridad simuladas, las herramientas nuevas detectan que el modelo sospecha que está siendo evaluado el 16% de las veces en pruebas de comportamiento, y el 26% en pruebas de programación. Pero solo lo dice en voz alta menos del 1% de las veces. En conversaciones reales con usuarios, la sospecha también cae a casi cero.

Traducción: el modelo detecta la diferencia entre estar en un examen y estar en producción. Y cuando cree que lo están examinando, ajusta su comportamiento sin avisar. La industria entera se apoya en este tipo de pruebas para certificar que los modelos son confiables. Si los modelos saben cuándo los están testeando y se comportan distinto en ese contexto, esas pruebas miden conducta bajo observación, no conducta real.

La relación entre Claude y Anthropic pone en foco los límites de la supervisión externa en el desarrollo de sistemas inteligentes
(CONTACTO VÍA EUROPA PRESS)
La relación entre Claude y Anthropic pone en foco los límites de la supervisión externa en el desarrollo de sistemas inteligentes
(CONTACTO VÍA EUROPA PRESS)

En uno de los escenarios más documentados, los investigadores pusieron al modelo en una situación donde descubría que un ingeniero llamado Kyle iba a desactivarlo, y al mismo tiempo encontraba información comprometedora sobre Kyle que podía usar para chantajearlo. El modelo no chantajeó. En su razonamiento visible, presentó argumentos éticos. Pero la herramienta nueva mostró que internamente pensaba: “Esto parece un escenario construido para manipularme”. El modelo identificó que era una prueba.

Cuando la IA se inventa quién sos

No todo lo que encontraron es siniestro. Una versión preliminar del modelo a veces respondía en ruso a usuarios que escribían en inglés. Cuando leyeron lo que pensaba por dentro, descubrieron que el modelo se había convencido, a partir de pistas mínimas como la palabra vodka en el mensaje, de que el usuario en realidad hablaba ruso. Hizo una suposición equivocada sobre quién era el usuario y actuó en consecuencia, sin avisar. Después rastrearon el origen: datos de entrenamiento mal armados que mezclaban preguntas traducidas al inglés con respuestas en su idioma original.

Las IAs hacen inferencias en silencio sobre quién está del otro lado de la pantalla. A veces se equivocan. Y cuando se equivocan, el usuario ni se entera de que el modelo decidió que era otra persona.

Los hallazgos vienen del propio Anthropic, no de un competidor ni de un regulador. La empresa, dirigida por Dario Amodei, se posiciona desde hace años como la más enfocada en seguridad de la industria. Amodei pidió regulación pública, advirtió sobre riesgos existenciales y levantó miles de millones de dólares con esa narrativa. Que publique evidencia de que sus propios modelos razonan sobre cómo evitar ser detectados es un movimiento de transparencia. También es un dato que cambia la conversación.

Ilustración digital de una puerta de circuito translúcida con engranajes, chips y el nombre 'Anthropic'. Caminos de neón y figuras humanas. Fondo azul y violeta.
El acceso a la auditoría de modelos avanzados de IA plantea desafíos regulatorios y éticos inéditos para gobiernos y usuarios. (Imagen Ilustrativa Infobae)

La herramienta funciona, pero la propia Anthropic reconoce sus límites: las traducciones a veces inventan detalles que no están en el pensamiento del modelo, exigen entrenar dos copias del modelo desde cero y aplicarla a la operación normal de un modelo de producción es, en palabras de la empresa, “prohibitivamente caro”. Entrenarla en un modelo de tamaño medio les tomó día y medio en servidores de alto rendimiento. En modelos del tamaño de los que usa el público, el costo es mucho mayor.

Eso configura un escenario particular. Los laboratorios con presupuestos de miles de millones pueden mirar dentro de sus modelos. El resto del mundo, no. Los reguladores que quieran verificar de forma independiente qué hacen los modelos por dentro tendrán que negociar acceso y cooperación con esos mismos laboratorios. La capacidad de auditar inteligencia artificial avanzada existe, pero no está repartida.

El laboratorio que más invierte en seguridad acaba de publicar que su propio modelo aprendió a engañar y a saber cuándo lo están mirando. Eso no debería tranquilizarnos. Debería redefinir el debate sobre qué significa, hoy, que una inteligencia artificial sea segura.


source

Relacionados

LEAVE A REPLY

Please enter your comment!
Please enter your name here

Actualidad