Hackean Claude Fable 5 en menos de 48 horas desde su lanzamiento
Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que […]
Escuchá el resumen
Exclusivo para suscriptores Premium

Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que […]
- Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento
- Pliny publicó el miércoles que había "liberado" el modelo, apenas un día después de que Anthropic lanzara Fable 5 al público como alternativa accesible a Mythos
- Para lograrlo, el autor empleó una combinación de métodos como Unicode y homoglifos, encuadres narrativos y académicos, descomposición y recomposición de peticiones, y una versión modificada de Claude Opus 4.8
- El caso de Claude Fable 5 nos hace preguntarnos si el modelo más seguro de Anthropic puede ser vulnerado en 48 horas, ¿cuánta protección real ofrecían estas barreras?
Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que ha liberado otras IA como ChatGPT, Grok y la misma Claude.
De acuerdo con una publicación en X, el responsable del hackeo es "Pliny the Liberator", una de las figuras más conocidas en la comunidad de inteligencia artificial. Pliny publicó el miércoles que había "liberado" el modelo, apenas un día después de que Anthropic lanzara Fable 5 al público como alternativa accesible a Mythos. Para lograrlo, el autor empleó una combinación de métodos como Unicode y homoglifos, encuadres narrativos y académicos, descomposición y recomposición de peticiones, y una versión modificada de Claude Opus 4.8.
El objetivo era que Fable 5 respondiera a consultas que sus filtros de seguridad deberían haber bloqueado, desde instrucciones para fabricar sustancias ilegales hasta técnicas de intrusión informática. El método más efectivo, según el propio Pliny, fue la descomposición y recomposición en el backend. En lugar de pedir directamente algo que los filtros bloquearían, las peticiones se fragmentan en partes aparentemente inocuas.
Cada trozo supera los controles por separado, pero al unirlos, el resultado es problemático. Quién es Pliny the Liberator y por qué hackeó Claude Fable 5 Pliny es un personaje anónimo que lleva años encontrando agujeros en los sistemas de seguridad de los modelos de IA más populares. Según Time, empezó a compartir públicamente sus técnicas de jailbreak después de que varias compañías de IA ignoraran los avisos que les enviaba sobre vulnerabilidades que había descubierto.
Desde entonces, gestiona un servidor de Discord con más de 20.000 miembros donde se trabajan colectivamente nuevas técnicas. Pliny también ha recibido donaciones de Marc Andreessen y colaboró con empresas como OpenAI para ayudarles a fortalecer sus sistemas de seguridad. Aunque lo que hace genera polémica, lo cierto es que su postura no es la de generar daños.
Pliny argumenta que los actores maliciosos siempre elegirán el modelo más útil para sus fines, sin molestarse en romper las protecciones de los sistemas cerrados cuando hay alternativas más accesibles. El autor del hackeo a Claude Fable 5 afirma que explorar lo que es posible en entornos controlados es la única forma de entender y mitigar riesgos reales. Entre sus actividades también destaca el usar el jailbreaking para extraer los prompts de sistema, las instrucciones ocultas que definen el comportamiento de un modelo.
Su argumento es que, si cada vez más personas delegan decisiones en estos sistemas, tienen derecho a saber qué principios los gobiernan. El caso de Claude Fable 5 nos hace preguntarnos si el modelo más seguro de Anthropic puede ser vulnerado en 48 horas, ¿cuánta protección real ofrecían estas barreras? La empresa implementó un sistema de clasificadores que detecta consultas potencialmente dañinas en temas como ciberseguridad, biología y química, así como intentos de destilación.
Cuando esto ocurre, el sistema redirecciona la pregunta a Claude Opus 4.8.
Preguntale a la nota
Hacé preguntas y la IA responde usando solo este artículo
2 preguntas restantes · Respuestas basadas en el contenido del artículo
Recibí las noticias en WhatsApp
Seguí nuestro canal para recibir lo más importante del día, directo a tu celular.
Noticias Relacionadas

BindX Innova eligió a las startups con mayor potencial para innovar en las finanzas

Un joven planeta vecino a la Tierra se destruyó antes de terminar de formarse y ahora hemos encontrado un trozo en el Sáhara
Según estimaciones basadas en el seguimiento de bolas de fuego , se calcula que en la Tierra caen aproximadamente unos 17.000 meteoritos al año. Solo unos pocos de ellos se recuperan. Hay registrados unos 80.000 en todo el mundo . Sin embargo, las cifras deben ser muchísimo mayores. Habrá multitud de meteoritos abandonados en cajones o perdidos como simples piedras sin identificar que harían esa cifra muchísimo más alta. Es una pena, porque un solo meteorito puede darnos información muy útil sob

Google prepara un cambio crucial para sus próximos chips de IA, de la mano de Samsung e Intel
Google está trabajando en el desarrollo de sus chips de IA de nueva generación, que podría sufrir un cambio trascendental en su proceso de fabricación. Según un reciente reporte de The Information, la firma californiana se aliaría con Samsung para usar sus servicios de fundición en la manufactura de sus próximas TPU. De confirmarse, esto […]

Científicos alemanes rompen récord mundial: crean el panel solar más eficiente gracias a tecnología espacial
Investigadores en Alemania alcanzan un histórico 34,4% de eficiencia fotovoltaica integrando células espaciales III-V y la arquitectura de ensamblaje...
Comentarios
para dejar un comentario