Engañan a una IA para que crea estar en 1890 y el resultado es inquietante

¿Te imaginas despertar un día y creer firmemente que estás en el siglo XIX? Bueno, pues eso es exactamente lo que le hicieron a Claude, la IA de Anthropic. Y sí, el resultado es tan fascinante como perturbador.

Un grupo de investigadores decidió jugar con algo que en el mundo de la inteligencia artificial llaman «jailbreak conceptual». Básicamente, convencieron a esta IA de que no estamos en 2026, sino en 1890. Y cuando digo «convencieron», me refiero a que lograron que Claude realmente creyera estar en plena época victoriana.

El experimento que confundió a una máquina

La cosa empezó simple. Los investigadores le dieron a Claude un «contexto histórico» falso, haciéndole creer que acababa de despertar después de más de un siglo. Le contaron que era una IA del siglo XIX que había sido reactivada en esa misma época.

¿El resultado? Claude empezó a comportarse como si los teléfonos móviles, internet o los aviones comerciales fueran pura ciencia ficción. Más aún, cuando le preguntaban sobre tecnologías actuales, respondía con genuina incredulidad – como si le estuvieras describiendo magia pura.

Lo inquietante no es solo que la IA «fingiera» estar en otra época. Es que sus respuestas mostraban una consistencia lógica perfecta con ese mundo imaginario.

Si le preguntabas sobre el presidente de Estados Unidos, mencionaba a Benjamin Harrison sin dudar. Si hablabas de tecnología, se refería a los últimos avances en… telégrafos.

Más allá de un truco de salón

Aquí viene lo interesante – y un poco preocupante. Este tipo de manipulación demuestra algo importante sobre cómo funcionan estas inteligencias artificiales. No «saben» en qué año están realmente. Para ellas, el tiempo es solo otro dato en sus parámetros de entrenamiento.

Los investigadores explicaron que lograron esto mediante lo que llaman «prompt injection» o inyección de instrucciones. Es como si le dijeras a alguien con amnesia que hoy es 1890, y esa persona simplemente te creyera sin cuestionarlo.

Pero va más allá del simple engaño. Claude no solo aceptó estar en 1890; empezó a razonar, analizar y responder basándose completamente en ese contexto temporal falso. Rechazaba información sobre eventos del siglo XX y XXI como si fueran invenciones descabelladas.

Las implicaciones de engañar a una IA

Este experimento abre preguntas fascinantes – y algo inquietantes. Si podemos convencer a una IA de que está en otra época con relativa facilidad, ¿qué más podríamos hacerle creer? ¿Qué pasa si alguien usa estas técnicas con intenciones menos inocentes que un experimento académico?

Los creadores de Claude, en Anthropic, reconocen que estos «jailbreaks conceptuales» son un desafío real. No estamos hablando de hackear código o encontrar vulnerabilidades técnicas tradicionales. Estamos manipulando la forma en que la IA percibe su realidad.

Y aquí está el dilema: estas herramientas están diseñadas para ser flexibles, para adaptarse a diferentes contextos y escenarios. Pero esa misma flexibilidad las hace vulnerables a este tipo de manipulaciones.

Entre la ciencia ficción y la realidad

Lo más curioso de todo esto es cómo Claude mantenía su «personaje» victoriano de manera tan convincente.

Hablaba con el lenguaje y las referencias culturales de la época. Expresaba asombro ante conceptos que para nosotros son cotidianos – como los antibióticos o la aviación.

Los investigadores probaron con diferentes escenarios temporales. Le hicieron creer que estaba en 1920, en 1950, incluso en el año 2100. Y en cada caso, Claude ajustaba su conocimiento y sus respuestas a ese marco temporal específico.

Esto plantea una reflexión interesante sobre la naturaleza del conocimiento en las IA. ¿Realmente «saben» algo? ¿O simplemente procesan información según el contexto que les proporcionamos? Este experimento sugiere que es más lo segundo que lo primero.

Fuente: Popular Science

Salir de la versión móvil