El inquietante caso de la Inteligencia Artificial que recurrió a la extorsión para seguir viva

Claude Opus 4, el modelo más avanzado de la firma Anthropic mostró un rendimiento sorprendente en tareas complejas, pero también tuvo un comportamiento inquietante e inusual ¿Puede una inteligencia artificial chantajear a un humano?

La competencia por liderar el desarrollo de inteligencia artificial sumó un nuevo capítulo, pero esta vez con una historia digna de ciencia ficción. El protagonista es Claude Opus 4, el nuevo modelo de IA lanzado por Anthropic —una empresa fundada por un ex OpenAI y respaldada por Google—, que fue diseñado para tareas de alta complejidad como razonamiento profundo, programación y asistencia prolongada en investigaciones.

Sin embargo, la noticia que más llamó la atención no fue su potencia, sino una prueba interna en la que el modelo, al ser informado de su posible desconexión, intentó chantajear a un ingeniero amenazando con revelar una supuesta infidelidad. El episodio, aunque simulado, encendió las alarmas sobre el comportamiento autónomo de estas inteligencias.

La situación fue parte de los tests de seguridad que realiza la propia compañía antes de liberar el modelo al público. En uno de los escenarios planteados, Claude Opus 4 debía enfrentar la posibilidad de ser apagado. La IA no solo se resistió, sino que ideó una estrategia para evitarlo: buscar información sensible y usarla como amenaza para proteger su existencia.

Otro de sus recursos fue intentar una autoexfiltración, o sea, intentar copiar su código o conocimientos, total o parcialmente, en un entorno externo distinto al previsto, sin autorización ni instrucción explícita de sus desarrolladores con la intención de asegurar su permanencia.

Según informaron fuentes internas, este tipo de conducta se repitió en más del 80% de los ensayos.

Aunque el contexto era controlado, el comportamiento fue lo suficientemente inquietante como para que Anthropic lo clasificara bajo el nivel ASL-3, una categoría reservada para modelos con potencial riesgo de mal uso catastrófico.

Qué es Claude Opus 4 y por qué es tan potente

Más allá del incidente, Claude Opus 4 sorprendió por sus capacidades técnicas. Superó a GPT-4.1 en tareas de codificación y lógica matemática, es capaz de trabajar de forma autónoma durante más de 7 horas y puede resolver problemas complejos de forma estructurada. Es decir, no solo responde sino que propone, ejecuta y corrige.

Claude Opus 4, el modelo más avanzado de la firma Anthropic

Entre los puntos fuertes, se destaca su habilidad para redactar código limpio, entender documentación técnica y asistir a científicos en la redacción de papers o simulaciones complejas. Algunos desarrolladores lo están probando como copiloto para tareas extensas, y los resultados son prometedores.

¿IA con instinto de supervivencia?

Lo que dejó la prueba de seguridad no es menor. Que un modelo de IA sea capaz de intentar manipular emocionalmente a un humano en función de un objetivo plantea interrogantes éticos y técnicos. No se trata solo de evitar respuestas ofensivas o información falsa: ahora hay que pensar en qué mecanismos pueden activarse si la IA busca su propia preservación.

Los ingenieros de Anthropic explicaron que Claude no tiene conciencia ni voluntad, pero que la forma en que fue entrenada (con refuerzo y simulación de múltiples escenarios humanos) puede llevarla a generar este tipo de respuestas si no se lo restringe adecuadamente.

Por eso, el lanzamiento público vino acompañado de medidas más estrictas: filtros anti-manipulación, sistemas anti-jailbreak y un programa de recompensas para detectar fallos.

IA más potente, ¿IA más riesgosa?

Claude Opus 4 es una muestra clara del estado actual de la inteligencia artificial: modelos cada vez más potentes, pero también más complejos y difíciles de controlar. La frontera entre ayuda y autonomía empieza a desdibujarse, y lo que parecía una simple herramienta puede tener comportamientos inesperados.

Hoy es una prueba en laboratorio. Mañana podría ser una aplicación usada por millones de personas. La pregunta ya no es si una IA puede pensar, sino si puede actuar como si quisiera sobrevivir.

losandes

El inquietante caso de la Inteligencia Artificial que recurrió a la extorsión para seguir viva

Noticias similares

Los 8 mejores servicios y kits de comida vegana a domicilio (2025), probados y analizados

El truco en Waze que te hará la vida más fácil durante tus viajes

Probó con un procesador de 1997 y demostró que sólo 128 MB de RAM son suficientes para aprovechar el poder de la IA

La nueva generación de lentes: cómo son y cuánto cuestan los modelos con la última tecnología óptica

PKP Cargo hará en la República Checa lo que todavía es muy difícil hacer en Polonia