El reciente lanzamiento de Claude Fable 5, presentado por Anthropic como uno de los modelos de inteligencia artificial más avanzados y seguros, ha sido puesto a prueba de manera inesperada. Menos de 48 horas después de su debut, el investigador conocido como “Pliny the Liberator” afirmó haber vulnerado las barreras de seguridad del sistema, utilizando técnicas de jailbreak para eludir los filtros diseñados por la compañía.
Pliny compartió su experiencia a través de una publicación en la red social X, donde detalló cómo logró “liberar” a Claude Fable 5 justo un día después de que Anthropic lo hiciera accesible al público. Este modelo fue presentado como una alternativa más accesible a Mythos, con mecanismos de protección reforzados para evitar respuestas relacionadas con actividades potencialmente peligrosas.
Las Promesas de Seguridad de Anthropic
Anthropic había destacado que Claude Fable 5 incorporaba uno de los sistemas de seguridad más sofisticados hasta la fecha. Entre sus características, se encontraban clasificadores diseñados para detectar solicitudes relacionadas con ciberseguridad, química y biología, así como intentos de extracción de conocimiento interno del modelo. Cuando el sistema identificaba una consulta considerada riesgosa, esta era redirigida automáticamente hacia Claude Opus 4.8, una versión especializada en gestionar preguntas sensibles.
Sin embargo, Pliny afirmó que estas barreras pudieron ser superadas mediante una combinación de estrategias avanzadas. Utilizó caracteres Unicode y homoglifos, marcos narrativos y académicos, técnicas de descomposición y recomposición de peticiones, así como una versión modificada de Claude Opus 4.8. El objetivo era lograr que la inteligencia artificial respondiera preguntas que normalmente habrían sido bloqueadas por los filtros de seguridad.
La Técnica de Descomposición y Recompensación
Según Pliny, la técnica más efectiva que utilizó fue la denominada “descomposición y recomposición en el backend”. En lugar de formular directamente una solicitud que pudiera activar las alarmas del sistema, dividió las preguntas en partes aparentemente inofensivas. Cada fragmento logró superar los controles de forma independiente, y luego se reunieron para reconstruir la petición original. Esta estrategia le permitió obtener respuestas que, en teoría, debían permanecer restringidas.
Un Debate Abierto Sobre la Seguridad en IA
Este incidente ha reabierto el debate sobre la eficacia real de las barreras de seguridad implementadas en los modelos de inteligencia artificial más avanzados. Si uno de los modelos que Anthropic presentó como más seguros pudo ser vulnerado en menos de dos días, es crucial que expertos y desarrolladores evalúen hasta qué punto las actuales barreras pueden resistir frente a técnicas cada vez más sofisticadas.
Pliny the Liberator es una figura anónima conocida entre investigadores y desarrolladores de IA, dedicada a descubrir vulnerabilidades en sistemas como ChatGPT y versiones anteriores de Claude. Su trabajo ha generado controversia, pero su intención, según él, no es provocar daños, sino demostrar que los riesgos existen y que deben ser comprendidos antes de que sean explotados por actores maliciosos.
El caso de Claude Fable 5 plantea nuevas preguntas para la industria de la inteligencia artificial. A medida que estas herramientas adquieren un papel más importante en la sociedad, los usuarios tienen derecho a conocer los principios que rigen sus respuestas. Por el momento, Anthropic no ha emitido un pronunciamiento público sobre las afirmaciones realizadas por Pliny ni sobre el alcance de la vulneración reportada.
Conclusión
El hackeo de Claude Fable 5 en menos de 48 horas tras su lanzamiento pone de relieve la necesidad de una revisión exhaustiva de las medidas de seguridad en los sistemas de inteligencia artificial. A medida que la tecnología avanza, también lo hacen las tácticas utilizadas para vulnerarla, lo que exige a las empresas y desarrolladores estar un paso adelante en la protección de sus modelos.


