tecnología

Hackean Claude Fable 5 en menos de 48 horas desde su lanzamiento

Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que […]

Actualizado hace alrededor de 1 hora3 min de lectura2 lecturasComentarios

Escuchá el resumen

Exclusivo para suscriptores Premium

Desbloquear
Hackean Claude Fable 5 en menos de 48 horas desde su lanzamiento
Lo esencial

Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que […]

  • Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento
  • Pliny publicó el miércoles que había "liberado" el modelo, apenas un día después de que Anthropic lanzara Fable 5 al público como alternativa accesible a Mythos
  • Para lograrlo, el autor empleó una combinación de métodos como Unicode y homoglifos, encuadres narrativos y académicos, descomposición y recomposición de peticiones, y una versión modificada de Claude Opus 4.8
  • El caso de Claude Fable 5 nos hace preguntarnos si el modelo más seguro de Anthropic puede ser vulnerado en 48 horas, ¿cuánta protección real ofrecían estas barreras?

Un investigador de ciberseguridad asegura que vulneró las barreras de seguridad de Claude Fable 5 a menos de 48 horas de su lanzamiento. El modelo, que según Anthropic es uno de los más peligrosos del mundo, cuenta con mecanismos de seguridad presuntamente inviolables. Todo indica que no es así, al menos para la persona que ha liberado otras IA como ChatGPT, Grok y la misma Claude.

De acuerdo con una publicación en X, el responsable del hackeo es "Pliny the Liberator", una de las figuras más conocidas en la comunidad de inteligencia artificial. Pliny publicó el miércoles que había "liberado" el modelo, apenas un día después de que Anthropic lanzara Fable 5 al público como alternativa accesible a Mythos. Para lograrlo, el autor empleó una combinación de métodos como Unicode y homoglifos, encuadres narrativos y académicos, descomposición y recomposición de peticiones, y una versión modificada de Claude Opus 4.8.

El objetivo era que Fable 5 respondiera a consultas que sus filtros de seguridad deberían haber bloqueado, desde instrucciones para fabricar sustancias ilegales hasta técnicas de intrusión informática. El método más efectivo, según el propio Pliny, fue la descomposición y recomposición en el backend. En lugar de pedir directamente algo que los filtros bloquearían, las peticiones se fragmentan en partes aparentemente inocuas.

Cada trozo supera los controles por separado, pero al unirlos, el resultado es problemático. Quién es Pliny the Liberator y por qué hackeó Claude Fable 5 Pliny es un personaje anónimo que lleva años encontrando agujeros en los sistemas de seguridad de los modelos de IA más populares. Según Time, empezó a compartir públicamente sus técnicas de jailbreak después de que varias compañías de IA ignoraran los avisos que les enviaba sobre vulnerabilidades que había descubierto.

Desde entonces, gestiona un servidor de Discord con más de 20.000 miembros donde se trabajan colectivamente nuevas técnicas. Pliny también ha recibido donaciones de Marc Andreessen y colaboró con empresas como OpenAI para ayudarles a fortalecer sus sistemas de seguridad. Aunque lo que hace genera polémica, lo cierto es que su postura no es la de generar daños.

Pliny argumenta que los actores maliciosos siempre elegirán el modelo más útil para sus fines, sin molestarse en romper las protecciones de los sistemas cerrados cuando hay alternativas más accesibles. El autor del hackeo a Claude Fable 5 afirma que explorar lo que es posible en entornos controlados es la única forma de entender y mitigar riesgos reales. Entre sus actividades también destaca el usar el jailbreaking para extraer los prompts de sistema, las instrucciones ocultas que definen el comportamiento de un modelo.

Su argumento es que, si cada vez más personas delegan decisiones en estos sistemas, tienen derecho a saber qué principios los gobiernan. El caso de Claude Fable 5 nos hace preguntarnos si el modelo más seguro de Anthropic puede ser vulnerado en 48 horas, ¿cuánta protección real ofrecían estas barreras? La empresa implementó un sistema de clasificadores que detecta consultas potencialmente dañinas en temas como ciberseguridad, biología y química, así como intentos de destilación.

Cuando esto ocurre, el sistema redirecciona la pregunta a Claude Opus 4.8.

Fuente: Hipertextual|Fuente primaria|Editado por Tempranísimo IA

Preguntale a la nota

Hacé preguntas y la IA responde usando solo este artículo

2 preguntas restantes · Respuestas basadas en el contenido del artículo

Compartir
WhatsAppXFacebookTelegram

Recibí las noticias en WhatsApp

Seguí nuestro canal para recibir lo más importante del día, directo a tu celular.

Seguir canal

Comentarios

para dejar un comentario

Cargando comentarios...

Noticias Relacionadas

Un joven planeta vecino a la Tierra se destruyó antes de terminar de formarse y ahora hemos encontrado un trozo en el Sáhara
Tecnología

Un joven planeta vecino a la Tierra se destruyó antes de terminar de formarse y ahora hemos encontrado un trozo en el Sáhara

Según estimaciones basadas en el seguimiento de bolas de fuego , se calcula que en la Tierra caen aproximadamente unos 17.000 meteoritos al año. Solo unos pocos de ellos se recuperan. Hay registrados unos 80.000 en todo el mundo . Sin embargo, las cifras deben ser muchísimo mayores. Habrá multitud de meteoritos abandonados en cajones o perdidos como simples piedras sin identificar que harían esa cifra muchísimo más alta. Es una pena, porque un solo meteorito puede darnos información muy útil sob

Google prepara un cambio crucial para sus próximos chips de IA, de la mano de Samsung e Intel
Tecnología

Google prepara un cambio crucial para sus próximos chips de IA, de la mano de Samsung e Intel

Google está trabajando en el desarrollo de sus chips de IA de nueva generación, que podría sufrir un cambio trascendental en su proceso de fabricación. Según un reciente reporte de The Information, la firma californiana se aliaría con Samsung para usar sus servicios de fundición en la manufactura de sus próximas TPU. De confirmarse, esto […]